Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/35151
Type: Tese
Title: Behavioral and neurophysiological representations of speech phonemic units
Other Titles: Représentations comportementale et neurophysiologique des unités phonémiques de la parole
Representações comportamental e neurofisiológica de unidades fonêmicas da fala
Authors: Adrielle de Carvalho Santana
First Advisor: Hani Camille Yehia
metadata.dc.contributor.advisor2: Rafael Michelin Laboissière
First Referee: Antonio Maurício Ferreira Leite Miranda de Sá
Second Referee: Sophie Dufour
Third Referee: Jean-Luc Schwartz
metadata.dc.contributor.referee4: Adriano Vilela Barbosa
Abstract: The auditory evoked potential (AEP) is a neuroelectric response to an auditory stimulus that reflects the activities of a set of neurons along the pathways of the auditory system. This biopotential is used to aid in the diagnosis of hearing disorders and in the study of auditory processing in the human brain. Thus, it is interesting to work with more complex stimuli, such as speech, whose acoustic parameters show a richer variation in time and frequency than the clicks or tones used in traditional audiometric tests. One of the ways to analyze speech processing by the human brain is through the study of categorical perception (CP) of phonemes which consists of mapping continuous changes in sounds onto discrete perceptual units during phonemic identification. The objective of this work is to investigate the neural correlates of categorical perception of phonemes in Brazilian Portuguese by analyzing the AEPs taking into account the acoustic characteristics of the phonemes, the amplitude and the latency of the responses, the cortical regions involved, the degree of attention to the acoustic task (passive or active) and the physical or psychophysical characteristics of the response. An experiment was carried out with tasks that involved the active and passive phonemic categorization along two different continua: one based on variations of the voice onset time (VOT), and another based on variations of the formant frequencies. AEPs were acquired via electroencephalography (EEG). The analysis of the AEPs was performed in time and time-frequency domains in conjunction with behavioral data obtained from the participants' psychometric curves. In the time-domain, the amplitudes and latencies of the AEP components N1 and P2 were analyzed. In the time-frequency domain, data were represented by means of discrete wavelet coefficients. To extract the physical and psychophysical representations of the categorization process, a regression technique was proposed, called regression on low-dimension spanned input space (RoLDSIS), that allows working with a small amount of observations in a large dimensional feature space. Mixed-effects models were fitted to the RoLDSIS regression coefficients and to the N1 and P2 amplitudes and latencies. The results showed that the categorical perception is affected by the acoustic characteristic and by the task and that it is observed as early as in the N1 latency (and remains in late latencies - P2) by the theta, alpha, beta and gamma band activities. We saw that each frequency band and latency seems to code different aspects of the sound for the speech processing. It was observed that participants who presented behaviorally stronger CP had a larger difference between their physical and psychophysical neural representation of the stimuli. This difference was pronounced for the VOT acoustic cue than for the formants and for active tasks than for the passive ones. It was also shown that the CP occurs when there is no attention to the auditory task but only for the formant-based acoustic cue. Hemispheric differences were observed, with stronger activity at the left hemisphere. Differences were also observed between frontal and temporal cortical regions coded by low-frequency rhythms with more activity at the temporal region. In the gamma band we observed no significant difference between the activity at the frontal and temporal regions. Our results showed that temporal region structures may also perform some categorization besides the processing of physical acoustic characteristics of the sounds. We also show how the acoustic cue and task dynamically reconfigure the speech network which should be took into account by a neurobiological model for speech perception. This study compared different factors related to categorical speech perception in Brazilian Portuguese using a reproducible protocol developed for the study and the evaluation of phonemic categorical perception, and confirmed many of the results found in the literature for other languages.
Abstract: O potencial evocado auditivo (PEA) é uma resposta neuroelétrica a um estímulo auditivo que reflete as atividades de um conjunto de neurônios ao longo das vias do sistema auditivo. Este biopotencial é utilizado no auxílio ao diagnóstico de transtornos auditivos e no estudo do processamento auditivo no cérebro humano. Assim, é interessante se trabalhar com estímulos mais complexos, tais como a fala, cujos parâmetros acústicos apresentam uma variação em tempo e frequência mais rica que os cliques ou tons utilizados nos exames audiométricos tradicionais. Uma das formas de se analisar o processamento da fala pelo cérebro humano é por meio do estudo da percepção categórica (PC) de fonemas que consiste em mapear mudanças contínuas dos sons em unidades perceptuais discretas durante uma identificação fonêmica. O objetivo deste trabalho é investigar os correlatos neurais da percepção categórica de fonemas em Português Brasileiro pela análise do PEA levando em conta as características acústicas dos fonemas, amplitude e latência das respostas, regiões corticais envolvidas, o grau de atenção à tarefa acústica (passiva ou ativa) e as características físicas ou psicofísicas da resposta. Um experimento foi realizado com tarefas que envolveram a categorização ativa e passiva de fonemas pertencentes ao longo de dois continua diferentes: um baseado em variações do voice onset time (VOT), e outro baseado em variações das frequências formantes. Os PEAs foram adquiridos via eletroencefalografia (EEG). A análise dos PEAs foi realizada nos domínios do tempo e do tempo-frequência em conjunto com dados comportamentais obtidos das curvas psicométricas dos participantes. No domínio do tempo foram analisadas as amplitudes e latências dos componentes N1 e P2 dos PEAs. No domínio tempo-frequência, os dados foram representados por meio de coeficientes da transformada wavelet discreta. Para extrair as representações física e psicofísica do processo de categorização, propusemos uma técnica de regressão, chamada regression on low-dimension spanned input space (RoLDSIS), que nos permite trabalhar com uma pequena quantidade de observações em um espaço de características muito grande. Modelos de efeitos mistos foram ajustados aos coeficientes de regressão da RoLDSIS e às amplitudes e latências das componentes N1 e P2. Os resultados mostraram que a percepção categórica é afetada pela característica acústica e pela tarefa e que é codificada em torno da latência N1 (e permanece nas latências tardias - P2) pelas bandas theta, alpha, beta e gamma. Vimos que cada banda de frequência e latência parecem codificar diferentes aspectos do som para o processamento da fala. Observou-se que participantes que apresentam comportamentalmente uma PC mais forte apresentam maior diferença entre a representação neural física e psicofísica dos estímulos. Esta diferença foi mais pronunciada para a característica acústica VOT do que para os formantes e para as tarefas ativas do que para as passivas. Mostrou-se também que a PC ocorre quando não há atenção à tarefa auditiva, mas apenas para a característica acústica baseada em formantes. Diferenças inter-hemisféricas também foram observadas, com atividade mais forte no hemisfério esquerdo. Também foram observadas diferenças entre as regiões corticais frontais e temporais codificadas por ritmos de baixa frequência com mais atividade na região temporal. Na banda gama, não observamos diferença significativa entre a atividade nas regiões frontal e temporal. Nossos resultados mostraram que as estruturas da região temporal também podem realizar alguma categorização além do processamento das características acústicas físicas dos sons. Também mostramos como a característica e a tarefa acústicas reconfiguram dinamicamente a rede da fala o que deve ser levado em consideração por um modelo neurobiológico para a percepção da fala. Este estudo comparou diversos fatores relacionados à percepção categórica de fala no português brasileiro usando um protocolo reprodutível desenvolvido para o estudo e avaliação da percepção categórica fonêmica, e confirmou muitos dos resultados encontrados na literatura para outras línguas.
Subject: Engenharia elétrica
Eletroencefalografia
Atenção
Percepção da fala
language: eng
metadata.dc.publisher.country: Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.department: ENG - DEPARTAMENTO DE ENGENHARIA ELÉTRICA
metadata.dc.publisher.program: Programa de Pós-Graduação em Engenharia Elétrica
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/35151
Issue Date: 16-Dec-2020
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
Tese.pdf91.21 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.