The information unit of topic: a crosslinguistic, statistical study based on spontaneous speech corpora

Carregando...
Imagem de Miniatura

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Minas Gerais

Descrição

Tipo

Tese de doutorado

Título alternativo

Primeiro orientador

Membros da banca

Heliana Ribeiro de Mello
Maria Mendes Cantoni
Alber Olivier Blaise Rilliard
Donna Erickson

Resumo

This study, carried out within the framework of the Language into Act Theory (L-AcT), constitutes a statistically based, crosslinguistic analysis of the information unit of Topic (TOP), whose function is to supply a cognitive domain for the interpretation of the Comment (COM), the information unit that conveys the illocutionary force. We looked at data from spontaneous speech corpora of Italian (IT), European Portuguese (EP), Brazilian Portuguese (BP), and American English (AE), all of which collected in accordance with the tenets and methods established by L-AcT, thus recording a variety of formal and informal communicative situations, prosodic segmentation, and text-to-speech alignment at the utterance level. Some of these linguistic resources also feature annotation of informational functions, particularly the IT, BP and AE minicorpora. The last two of these have been revised as part of the preparation of the data for this study. We conducted a critical review of some of the most prominent approaches to information structure in general, dedicating more attention to the term topic and the different meanings it has depending on the framework considered. We conducted a kappa test to establish the degree of agreement among four raters in a task of TOP annotation based on data from the C-ORAL-BRASIL II corpora. We used Functional Data Analysis (FDA) and Functional Principal Component Analysis (F-PCA) to verify whether the prosodic forms of TOP proposed in previous studies are separable and to propose statistical models for each of the forms. In addition, we used Analysis of Variance (ANOVA) to determine whether the nuclear and non-nuclear syllables of TOP are significantly different from each other in terms of duration. Our study has shown that the interrater agreement for the detection of TOP in spontaneous speech is substantial. Furthermore, it has provided compelling statistical evidence in support of the classification scheme for the prosodic forms of TOP proposed in previous studies, which are lacking in statistical validation. In addition, the study of syllable durations has shown that the nuclear syllables of TOP are significantly longer than the non-nuclear ones. Finally, the melodic curves of TOP were compared to those of Bound Comments (COB), which constitute illocutionary units that feature a prosodic signal of continuity. This was done using the FDA and F-PCA techniques with the aim to show that TOP is not simply a simply a bearer of a continuity signal. The analysis showed that the f0 curves of COB are separable from those of TOP, and in those cases where there is some similarity in the shape of TOP and COB curves, the number of nuclear syllables as well as their position within the unit clearly distinguish these two types of information unit.

Abstract

Realizada nos quadros da Language into Act Theory (L-AcT), esta tese constitui um estudo estatístico e interlinguístico da unidade informacional de Tópico (TOP), cuja função é fornecer um domínio cognitivo para a interpretação do Comentário (COM), ou seja, a unidade informacional que veicula a força ilocucionária. Foram examinados dados de corpora de fala espontânea do italiano (IT), do português europeu (PE) e brasileiro (PB) e do inglês americano (IA), todos compilados segundo os princípios da L-AcT, contendo, portanto, variedade de situações comunicativas, segmentação prosódica e alinhamento texto-som ao nível do enunciado. Alguns desses corpora também possuem anotação informacional, especificamente os minicorpora do IT, PB e IA. Destes, os dois últimos passaram por uma revisão como parte da preparação dos dados pare este estudo. Realizou-se uma discussão das abordagens mais relevantes sobre estrutura informacional em geral, dedicando atenção especial ao termo tópico e as diferentes acepções que apresenta dependendo do quadro teórico considerado. Um teste kappa foi conduzido para estabelecer o grau de acordo entre anotadores numa tarefa de identificação de TOP utilizando-se dados dos corpora C-ORAL-BRASIL II. Fez-se uso da Análise de Dados Funcionais (FDA, da sigla em inglês) e da Análise de Componentes Principais Funcionais (F-PCA, idem) para verificar se as formas prosódicas de TOP propostas em estudos anteriores são separáveis bem como para propor modelos estatísticos para cada uma das formas. Além disso, utilizou-se a Análise de Variância (ANOVA) para verificar se as durações das sílabas nucleares e não nucleares de TOP são significativamente diferentes. Os resultados deste estudo mostram que o acordo entre anotadores na identificação de TOP é substancial. Além disso, os resultados fornecem evidências estatísticas convincentes que corroboram o esquema classificatório de estudos anteriores, os quais não haviam sido validados estatisticamente. O estudo da duração, por sua vez, mostrou que as sílabas nucleares de TOP são significativamente mais longas do que as sílabas não nucleares. Finalmente, as curvas melódicas de TOP foram comparadas a curvas de Comentários Ligados (COB), os quais constituem unidades ilocucionárias que exibem sinal prosódico de continuidade. Isso também foi realizado por meio das técnicas de FDA e F-PCA, com o objetivo de mostrar que o TOP não é meramente uma unidade portadora de sinal de continuidade. A análise mostra que as curvas de f0 de TOP são separáveis das de COB e que, nos casos em que há similaridade formal, o número de sílabas nucleares e a posição dessas sílabas na unidade distinguem claramente o TOP do COB.

Assunto

Linguística de corpus, Atos de fala (Linguística), Análise linguística

Palavras-chave

Language into Act Theory, Information structure, Topic, Statistical analysis

Citação

Endereço externo

Avaliação

Revisão

Suplementado Por

Referenciado Por

Licença Creative Commons

Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso Aberto