Uma proposta corpus-driven para a classificação de disfluências segundo a estrutura informacional da fala espontânea
Carregando...
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Dissertação de mestrado
Título alternativo
A corpus-driven approach for the classification of disfluencies based on the informational structure of spontaneous speech
Primeiro orientador
Membros da banca
Alessandro Panunzi
André Vinícius Lopes Coneglian
André Vinícius Lopes Coneglian
Resumo
O objetivo deste trabalho é criar uma classificação de disfluências com base na estrutura informacional da fala espontânea. As disfluências são compreendidas como instâncias em que o falante suspende, temporariamente ou não, o fluxo de sua fala para reelaborá-la estrutural ou funcionalmente. Elas podem ser descritas etiologicamente - em função de suas causas na relação linguagem-pensamento (Chafe, 1980) - ou ontologicamente, através de variadas tentativas de classificação dos fenômenos (Schegloff, 2013; Kosmala, 2024). Neste trabalho, partimos da caracterização de diferentes tipos de disfluência e suas motivações em face da estrutura informacional, da maneira como ela é compreendida pela Language into Act Theory (LAcT) (Cresti, 2000; Moneglia & Raso, 2014). Com base em análises corpus-driven, foram definidas oito classes de disfluências e dez classes de motivações que podem se associar livremente, formando compostos disfluência-motivação. Todas as disfluências de uma amostra de 10 (dez) textos do minicorpus do C-ORAL-BRASIL I (Raso & Mello, 2012) foram etiquetadas manualmente com base nessa classificação. Foram identificados 944 compostos disfluência-motivação. A frequência relativa de cada uma das classes foi descrita em função da arquitetura do corpus e das unidades definidas pela L-AcT. Tanto os tipos de disfluência quanto as motivações se distribuem de maneiras distintas em face da estrutura informacional. As unidades informacionais que comportam com mais frequência os fenômenos de disfluência são o Parentético (46,7%), o Comentário Ligado (40,0%) e o Tópico (31,5%). A partir das medidas de frequência relativa, propomos uma organização dos fenômenos em dois níveis: o nível locutivo (como em um reparo morfossintático) e o nível informacional-ilocucionário (como em um reparo de unidade informacional ou de ilocução). As disfluências ocorridas no nível locutivo não têm implicação no nível informacional-ilocucionário; aquelas ocorridas no nível informacional-ilocucionário podem condicionar outras disfluências no nível locutivo (como pausas preenchidas e repetições). Essa proposta é sustentada pelos dados empíricos e evidencia que mesmo os fenômenos de fragmentação (as disfluências) atuam sobre a função e a forma na linguagem.
Abstract
The goal of this work is to develop a classification of disfluencies based on the informational structure of spontaneous speech. Disfluencies are understood as instances in which the speaker suspends, either temporarily or not, the flow of speech in order to restructure it structurally or functionally. They may be described etiologically - in terms of their causes in the relationship between language and thought (Chafe, 1980) - or ontologically, through various attempts to classify the phenomena themselves (Schegloff, 2013; Kosmala, 2024). In this work, we begin from the characterization of different types of disfluency and their motivations in relation to informational structure, as understood within the Language into Act Theory (LAcT) (Cresti, 2000; Moneglia & Raso, 2014). Based on corpus-driven analyses, eight classes of disfluencies and ten classes of motivations were defined, which can combine freely to form disfluency-motivation compounds. All disfluencies in a sample of ten texts from the C-ORAL-BRASIL I minicorpus (Raso & Mello, 2012) were manually annotated according to this classification. A total of 944 disfluency-motivation compounds were identified. The relative frequency of each class was described with respect to the architecture of the corpus and the informational units defined by L-AcT. Both disfluency types and motivations exhibit distinct distributions in relation to informational structure. The informational units that most frequently host disfluency phenomena are the Parenthetical (46.7%), the Bound Comment (40.0%), and the Topic (31.5%). Based on relative-frequency measures, we propose an organization of the phenomena at two levels: the locutive level (as in morphosyntactic repairs) and the informational-illocutionary level (as in repairs of informational units or illocution). Disfluencies occurring at the locutive level have no implications for the informational-illocutionary level; those occurring at the informational-illocutionary level, however, may condition additional disfluencies at the locutive level (such as filled pauses and repetitions). This proposal is supported by empirical evidence and demonstrates that even phenomena of fragmentation (disfluencies) act upon both the function and the form of language.
Assunto
Atos de fala (Linguística, Linguística de corpus, Distúrbios da fala
Palavras-chave
Disfluência, Fala espontânea, Estrutura informacional, Language into Act Theory