Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/MGSS-9E3M84
Type: Tese de Doutorado
Title: Caracterização de registros orientada para a produção textual no ambiente multilíngue: estudo baseado em corpora comparáveis
Authors: Kelen Cristina Santanna de Lima
First Advisor: Adriana Silvina Pagano
First Referee: Pedro Henrique Lima Praxedes Filho
Second Referee: Figueredo, G. P.
Third Referee: Rui Rothe-neves
metadata.dc.contributor.referee4: Andre Luiz Elias de Souza
Abstract: Visando contribuir para a elaboração de um modelo que explique a produção e padrão de variabilidade de textos no ambiente multilíngue (FIGUEREDO 2011), esta tese se ampara na interface entre a Linguística de Corpus (MCENERY; XIAO, 2007; GRANGER, 2003) mais especificamente as análises semiautomáticas de corpora comparáveis e os Estudos da Tradução, com o aporte da Linguística Sistêmico-Funcional (HALLIDAY; MATTHIESSEN, 2004; EGGINS, 2004; MATTHIESSEN; TERUYA; WU, 2008; FIGUEREDO, 2011). Apresenta resultados de um estudo de padrões de uso linguístico (SINCLAIR, 1991; BERBER SARDINHA, 2004) em textos sobre triagem neonatal para anemia falciforme compilados em corpora comparáveis classificados de acordo com três tipos de textos específicos, considerando-se os rótulos a eles atribuídos pela comunidade de usuários da língua, a saber: (i) artigos acadêmicos (interação especialista especialista); (ii) manuais técnicos (interação especialista técnico da área da saúde); e (iii) cartilhas e folders de divulgação (interação especialista leigo). Para a seleção da amostra de textos, foi adotada a metodologia descrita em Biber (1990), adaptada por Neumann (2005). Inicialmente, os textos foram anotados e manipulados através da utilização do ambiente de programação R, com o qual foram extraídos padrões de co-ocorrência entre itens lexicais e itens gramaticais específicos. Após a tabulação desses itens, foram identificados os padrões de uso linguístico que geraram indícios para a classificação de cada um dos tipos de texto de acordo com o seu processo sociossemiótico. Na sequência, os corpora foram anotados em classes de palavras por meio do etiquetador morfossintático Treetagger. Os resultados obtidos com a aplicação do teste de associação qui-quadrado, do teste exato de Fisher e do teste Z possibilitaram identificar classes de palavras que se diferenciam significativamente e podem ser mais bem investigados para a caracterização do registro (MATTHIESSEN, 1993) ao qual estão vinculados. Excertos de mil palavras de cada um dos tipos de texto em inglês e em português foram classificados de acordo com a tipologia da língua no contexto de cultura (cf. MATTHIESSEN; TERUYA; WU, 2008). Os excertos foram anotados por meio do programa UAM CorpusTool, com base nas metafunções ideacional, interpessoal e textual (HALLIDAY; MATTHIESSEN, 2004) e analisados de forma semiautomática. Os dados extraídos possibilitaram investigar frequências relativas dos sistemas de TRANSITIVIDADE, MODO, e TEMA e MENSAGEM, com o objetivo de propor uma descrição sistêmico-funcional dos tipos de textos (FIGUEREDO, 2011). Os resultados apontam diferenças, em função do registro, em relação à variação lexical, densidade lexical, frequência de ocorrência de itens lexicais e itens gramaticais, além do mapeamento da forma como esses itens estão distribuídos em classes de palavras. À luz da Linguística Sistêmico-Funcional, as diferenças e semelhanças entre os textos responderam ao impacto das variáveis do contexto (i.e., campo, sintonia e modo) que se realizam no nível da léxico-gramática (EGGINS, 2004). Foi possível localizar os rótulos na tipologia dos textos com base nos parâmetros do contexto (MATTHIESSEN; TERUYA; WU, 2008), sendo classificados enquanto pertencentes aos processos sociossemióticos EXPLORAR (artigo acadêmico) e HABILITAR (manual técnico e cartilha e folder e divulgação), o que permite compreender a produção textual dentro do ambiente multilíngue. A descrição do perfil metafuncional dos textos revelou que, ideacionalmente, os processos mais significativos para a construção do mundo das experiências em todos os tipos de textos em português e em inglês foram os processos relacionais e materiais. Interpessoalmente, concernente à relação entre autor/leitor, o Modo que se destacou para todos os tipos de textos em português e em inglês foi o Indicativo Declarativo (Modo esse que apresenta como função semântica a oferta de informação), sendo encontrado o Modo Imperativo, cuja função semântica é a demanda de bens e serviços, apenas na cartilha e folder de divulgação em inglês. Textualmente, todos os tipos de texto em português e em inglês estão organizados, em função da semântica, a partir de mensagens iniciais, mensagens de continuidade e descontinuidade (mudança e desvio) e, em função da gramática, em tipos de Temas que se diferem para os textos em português e em inglês. As mensagens iniciais são responsáveis por separar as informações dos textos; as de continuidade acrescentam informações às mensagens iniciais; por fim, as de descontinuidade:mudança direcionam o fluxo de informações nos textos, considerando-se algum evento em particular e as mensagens de descontinuidade:desvio focalizam o fluxo de informações dos textos, levando-se em consideração algum participante em particular. No que toca aos tipos de Tema, os textuais e o default foram os mais frequentes em todos os tipos de texto em português, ao passo que os Tema simples e múltiplo (textual e tópico) foram os mais frequentes em todos os tipos de texto em inglês; o tema ângulo-fonte foi encontrado apenas no artigo acadêmico em português; e o Tema múltiplo (interpessoal e tópico) ocorreu apenas na cartilha e folder de divulgação em inglês. Com base no perfil metafuncional prototípico identificado, produziu-se um template que permitiu a elaboração de parte de um texto do tipo HABILITAR a partir das escolhas metafuncionais com base na gramática sistêmico-funcional hallidayana. A pesquisa é parte de um projeto conjunto desenvolvido entre o Laboratório Experimental de Tradução da Faculdade de Letras da UFMG (LETRA) e o Núcleo de Ações e Pesquisa em Apoio Diagnóstico da Faculdade de Medicina da UFMG (NUPAD/FM/UFMG).
Abstract: This thesis aims to contribute to the development of a model to account for text production and variability within a multilingual environment (FIGUEREDO, 2011). It builds on Systemic-Functional Linguistics (HALLIDAY; MATTHIESSEN, 2004; EGGINS, 2004; MATTHIESSEN; TERUYA; WU, 2008; FIGUEREDO, 2011) as a framework that supports an interface between Translation Studies and Corpus Linguistics (MCENERY; XIAO, 2007; GRANGER, 2008) oriented towards the semiautomatic analysis of comparable corpora. It reports a study of patterns of language use (SINCLAIR, 1991; BERBER SARDINHA, 2004) in a comparable corpus compiled with texts on newborn screening for sickle cell disease ascribed to three specific text types and thus labelled by language users: 1) research articles (i.e., specialist-specialist interaction), 2) technical guides (specialist-technician interaction), and 3) pamphlets and patient information leaflets (specialist-layperson interaction). Text sampling was carried out following Biber (1990) as adapted by Neumann (2005). The texts were automatically and manually annotated and queried using the software R to obtain co-occurrence patterns of specific lexical and grammatical items. After classifying and computing these items, the analysis targeted patterns of use that account for how each text type could be classified according to their socio-semiotic process. The corpora were subsequently POS-tagged using Treetager. Chi-square tests, Fishers exact tests, and Z tests were carried out to identify patterns of word classes that could be taken to differentiate subcorpora and could support further analyses aimed at characterizing the registers with which the texts in each subcorpus were associated. Excerpts of 1,000 words were selected to represent each text type in English and Portuguese (BIBER, 1990) and classified according to language typology in the context of culture (cf. MATTHIESSEN; TERUYA; WU, 2008). These texts were pasted to UAM CorpusTool® for annotation and semi-automatic analyses of choices within the ideational, interpersonal and textual metafunctions (HALLIDAY; MATTHIESSEN, 2004). Frequencies of lexical and grammatical items in each text were computed with a view to proposing a systemic-functional (SFL) description (FIGUEREDO, 2011) of the TRANSITIVITY, MOOD, THEME and MESSAGE systems. The results pointed to registerial differences for lexical variation, lexical density, occurrence frequency of lexical and grammatical items, and provided a word class-based mapping of how these items are distributed in the texts. In the light of Systemic-Functional Linguistics (SFL), between-text differences and similarities were underscored building on the impact of context variables (i.e., field, tenor, and mode) on the lexico-grammar (EGGINS, 2004). Context parameters were used to locate the labels in the text typology (MATTHIESSEN; TERUYA; WU, 2008) and classify them as pertaining to the socio-semiotic processes EXPLORING (research article) and ENABLING (technical guide and pamphlets and patient information leaflets). This classification shed light on text production within the multilingual environment. The SLF-based description of the metafunctional profile of the texts showed that, ideationally, material and relational processes were the main processes used to construe the real world in all text types in both languages. Interpersonally, i.e. regarding author-reader interaction, the declarative mood, with the semantic function of information supply, was predominant in all text types both in Portuguese and in English, and the imperative mood, with the semantic function of demands of goods and services, was found only in the pamphlets and patient information leaflets. Textually, all text types are organized, at the semantic level, on the basis of initial messages, and continuity and discontinuity messages (change and shift) that are similar in both English and Portuguese, and, at the grammatical level, on the basis of theme types that are different for English and Portuguese. Initial messages are those that sort out text information; continuity messages add information to the initial messages; and discontinuity:change messages guide text information flow on the basis of a participant in particular. Textual and default themes were the most frequent type of Theme in all text types in Portuguese, whereas simple and multiple (textual and topical) themes were the most frequent in all text types in English; the angle-source Theme was found only in the Portuguese research articles; and the multiple (interpersonal and topical) Theme occurred only in the English pamphlets and patient information leaflets. Building on the prototypical metafunctional profile identified based on the metafunctional profile, a template was developed to serve as a basis for the production of part of an ENABLING text type that is based on SFL-informed metafunctional choices. The results reported are the first within a joint project developed by the Laboratory for Experimentation in Translation (LETRA, Faculty of Arts, Federal University of Minas Gerais) and the Center for Newborn Screening and Genetics Diagnosis (NUPAD, School of Medicine, Federal University of Minas Gerais).
Subject: Tradutores (Programas de computador)
Semântica
Produção textual
Tradução e interpretação
Corpora (Lingüística)
Linguística de corpus
language: Português
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/MGSS-9E3M84
Issue Date: 27-Aug-2013
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
lima_2013____tese.pdf4.86 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.