Um estudo sobre a separação cega da fala em salas reverberantes

dc.creatorGuilherme Márcio de Melo Campos Fonte Bôa
dc.date.accessioned2026-01-28T13:34:08Z
dc.date.issued2025-10-31
dc.description.abstractSource separation is a fundamental step for the effective processing of speech signals in various applications, such as virtual assistants, videoconferencing systems, and hearing-assistance devices. In these contexts, the captured signals are often composed of mixtures of multiple speech sources and ambient noise, which makes recovering the original signals challenging. Signal separation methods are used either to filter out undesired speech signals or to recover them from mixtures. Separation tasks become particularly difficult when signals have been mixed in reverberant rooms due to the convolutive nature of the resulting mixtures. Techniques commonly used in such scenarios include Frequency-Domain Independent Component Analysis (FDICA) and Independent Vector Analysis (IVA), which rely on different optimization approaches such as natural gradient, fixed-point iteration (fast), and auxiliary functions. Factors such as the type of algorithm and the placement of microphones can affect separation performance in different acoustic scenarios—the former due to the adopted model and optimization strategy, and the latter due to the diversity of spatial information. This study aimed to investigate and compare these factors under specific experimental conditions. To this end, six blind speech separation methods for convolutive mixtures (three FDICA and three IVA) were applied to two-source mixtures recorded in four rooms with different reverberation times. The performance of the methods was then compared using the following metrics: Signal-to-Interference Ratio (SIR), Scale-Invariant Signal-to-Distortion Ratio (SI-SDR), and Perceptual Evaluation of Speech Quality (PESQ). In this stage, all factors except the method factor were blocked. Because SI-SDR and PESQ exhibited lower variability, they were also used to evaluate and compare, within each room, how microphone spacing (0 cm, 4 cm, and 57 cm) and the average distance between sources and microphones (75 cm, 140 cm, 210 cm) affected the performance of each of the three IVA methods selected from the initial analysis. Regarding algorithm comparison, SIR results were inconclusive. The SI-SDR and PESQ comparisons showed that fastFDICA was statistically inferior to the other methods. Moreover, IVAng outperformed the FDICA techniques and showed no statistically significant difference from the other IVA methods at a 5\% significance level.As for the evaluation of microphone placement, the results indicated that performance depended more on spatial information than on the specific algorithms. For each room, increasing the distance between microphones improved performance, although this effect diminished at higher reverberation times. Variations in the distances between microphones and sources did not produce statistically significant effects at any specific reverberation time.
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
dc.description.sponsorshipCNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico
dc.identifier.urihttps://hdl.handle.net/1843/1501
dc.languagepor
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso aberto
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internationalen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectEngenharia elétrica
dc.subjectInteligência computacional
dc.subjectFala
dc.subjectMicrofone
dc.subject.otherSeparação cega da fala
dc.subject.otherReverberação
dc.subject.otherAnálise em componentes independentes
dc.subject.otherAnálise em vetores independentes
dc.subject.otherArranjo de microfones
dc.titleUm estudo sobre a separação cega da fala em salas reverberantes
dc.typeDissertação de mestrado
local.contributor.advisor-co1Hani Camille Yehia
local.contributor.advisor-co1Latteshttp://lattes.cnpq.br/5816909391153518
local.contributor.advisor1Adriano Vilela Barbosa
local.contributor.advisor1Latteshttp://lattes.cnpq.br/9631335587847579
local.contributor.referee1Eduardo Mazoni Andrade Marçal Mendes
local.contributor.referee1Leandro Freitas de Abreu
local.contributor.referee1Maurilio Nunes Vieira
local.creator.Latteshttp://lattes.cnpq.br/6867876472331114
local.description.resumoA separação de fontes é uma etapa fundamental para o processamento eficaz de sinais de fala em diversas aplicações, como: assistentes virtuais, sistemas de videoconferência e dispositivos de assistência auditiva. Nesses contextos, os sinais captados são frequentemente compostos por misturas de múltiplas fontes de fala e ruído ambiente, o que torna a recuperação dos sinais originais um desafio. Métodos de separação de sinais são usados para filtrar sinais de fala indesejados ou recuperá-los a partir de misturas. As tarefas de separação tornam-se desafiadoras no caso de sinais que foram misturados em salas reverberantes, devido à natureza convolutiva das misturas resultantes. As técnicas de separação comumente usadas nesses cenários incluem a Análise em Componentes Independentes no Domínio da Frequência (FDICA) e a Análise de Vetores Independentes (IVA), que utilizam diferentes métodos de otimização, como gradiente natural, iteração de ponto fixo ({\em fast}) e funções auxiliares. Fatores como o tipo de algoritmo e o posicionamento dos microfones podem afetar o desempenho da separação para diferentes cenários acústicos. O primeiro devido ao modelo e otimização adotados, e, o segundo, devido à diversidade da informação espacial. Este estudo visou investigar e comparar esses fatores para condições experimentais específicas. Para isso, seis métodos de separação cega de fala para misturas convolutivas (três FDICA e três IVA) foram aplicados às misturas de duas fontes, gravadas em quatro salas com diferentes tempos de reverberação. O desempenho dos métodos foi então comparado utilizando-se as seguintes métricas: Razão Sinal-Interferência (SIR), Razão Sinal-Distorção Invariante à Escala (SI-SDR) e Avaliação Perceptiva da Qualidade da Fala (PESQ). Nesse caso, foi realizada a análise com blocagem de todos os fatores, exceto do fator método. A SI-SDR e a PESQ, por terem resultados com menor variabilidade, também foram usadas para avaliar e comparar, em cada sala, como a distância entre os microfones (0 cm, 4 cm e 57 cm) e a distância média entre fontes e microfones (75 cm, 140 cm, 210 cm) afetaram o desempenho de cada um dos três métodos IVAs, escolhidos a partir da primeira análise. Para a comparação dos algoritmos, a SIR apresentou resultados inconclusivos. A comparação da SI-SDR e PESQ mostrou que o fastFDICA foi estatisticamente inferior aos outros métodos. Além disso, o IVAng superou as técnicas FDICA e não apresentou diferença estatística em relação a outros métodos IVA em um nível de significância de 5\%. Para a comparação do posicionamento, os resultados mostraram que o desempenho dependeu mais das informações espaciais do que dos algoritmos. Para cada sala, aumentar a distância entre os microfones melhorou o desempenho, embora esse efeito tenha diminuído com tempos de reverberação mais altos. Variações nas distâncias entre microfones e fontes não produziram efeitos estatisticamente significativos em nenhum tempo de reverberação específico.
local.publisher.countryBrasil
local.publisher.departmentENGENHARIA - ESCOLA DE ENGENHARIA
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Engenharia Elétrica
local.subject.cnpqENGENHARIAS::ENGENHARIA ELETRICA

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Guilherme_Dissertação_corrigida.pdf
Tamanho:
9.62 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Item-specific license agreed to upon submission
Descrição: