Detecção automática de fronteiras prosódicas na fala espontânea
Carregando...
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Tese de doutorado
Título alternativo
Automatic detection of prosodic boundaries in spontaneous speech
Primeiro orientador
Membros da banca
Heliana Ribeiro de Mello
Sandra Madureira
João Antônio de Moraes
Bruno Neves Rati de Melo Rocha
Sandra Madureira
João Antônio de Moraes
Bruno Neves Rati de Melo Rocha
Resumo
A fala é segmentada em unidades entonacionais delimitadas por fronteiras prosódicas. Essa segmentação tem consequências importantes para a sintaxe, estrutura informacional e cognição. Este trabalho tem como objetivo investigar os parâmetros fonético-acústicos envolvidos na percepção das fronteiras prosódicas, e desenvolver modelos destinados à detecção automática das fronteiras prosódicas em fala espontânea monológica masculina de português brasileiro. Duas amostras foram segmentadas em unidades entonacionais por dois grupos de segmentadores treinados. As fronteiras percebidas pelos segmentadores foram marcadas como terminais ou não-terminais. Um script foi usado para extrair parâmetros fonético-acústicos ao longo do sinal de fala em uma janela à direita e à esquerda ao redor de cada fronteira de palavra fonológica. Os parâmetros extraídos compreendem medidas de (1) Taxa de articulação e elocução; (2) Duração normalizada do segmento; (3) Frequência fundamental; (4) Intensidade; (5) Pausa física. O script considera como fronteira prosódica as posições em que pelo menos 50% dos segmentadores indicaram uma fronteira do mesmo tipo. Os modelos de identificação das fronteiras prosódicas foram desenvolvidos a partir de um algoritmo de Análise Discriminante Linear e foram usadas diferentes estratégias de treinamento heurístico. Os modelos apresentaram problemas semelhantes em razão da importância dos parâmetros relacionados às pausas físicas. Foi realizado um teste de percepção de pausa por um grupo de anotadores. A duração de pausa física que pode ser percebida como pausa, evitando confusão com a fase oclusiva dos segmentos, foi analisada. Neste trabalho, a duração proposta é 100 ms. Adicionalmente, submodelos para identificar fronteiras com e sem pausa percebida foram desenvolvidos. O submodelo de identificação de fronteiras com pausa percebida apresentou resultados superiores aos resultados do submodelo de identificação de fronteiras sem pausa percebida.
Abstract
Speech is segmented into intonational units delimited by prosodic boundaries. This segmentation is claimed to have important consequences for syntax, information structure and cognition. This work aims to investigate the phonetic-acoustic parameters involved in the perception of prosodic boundaries, and to develop models for automatic detection of prosodic boundaries in Brazilian Portuguese male monological spontaneous speech. Two samples were segmented into intonational units by two groups of trained annotators. The boundaries perceived by the annotators were tagged as terminal or non-terminal. A script was used to extract phonetic-acoustic parameters along the speech signal in both a rightward and a leftward window around the boundary of each phonological word. The extracted parameters comprise measures of (1) Speech rate and rhythm; (2) Normalized duration; (3) Fundamental frequency; (4) Intensity; (5) Physical pause. The script considers as prosodic boundaries positions at which at least 50% of the annotators indicated a boundary of the same type. The models were developed from a Linear Discriminant Analysis algorithm and different heuristic training strategies were used. The models presented similar problems due to the importance of parameters related to physical pauses. A pause perception test was performed by a group of annotators. The duration of physical pause that can be perceived as a pause, avoiding confusion with the occlusive phase of the segments, was analyzed. In this work, the proposed duration is 100 ms. Additionally, submodels for identifying boundaries with and without a perceived pause were developed. The submodel for identifying boundaries with a perceived pause showed better results than the submodel for identifying boundaries without a perceived pause.
Assunto
Fala, Análise prosódica (Linguística), Linguística de corpus
Palavras-chave
Fala espontânea, Fronteiras prosódicas, Detecção automática