A corpus-based study of hyphenated premodifiers in complex NPs in biology research articles

Elisa  Mattos de Sá

A corpus-based study of hyphenated premodifiers in complex NPs in biology research articles

Arquivos

MA thesis - Elisa Mattos -arquivo completo.pdf (4.84 MB)

Data

2020-02-14

Autor(es)

Elisa Mattos de Sá

Editor

Universidade Federal de Minas Gerais

Tipo

Dissertação de mestrado

Primeiro orientador

Deise Prina Dutra

Membros da banca

Valdinéia de Carvalho Almeida
Bárbara Malveira Orfanó

Resumo

The purpose of this thesis is to investigate noun phrase (NP) complexity in specialized texts produced in English. Specifically, this research examines the use of hyphenated premodifiers in complex NPs in Biology research articles (RAs). As argued in Biber and Gray (2016), Gray (2015), Pirrelli, Guevara and Baroni (2010), and Biber et al (1999), science writing has as one of its defining features the use of compressed, complex nominal structures. Such preference is often associated with the strong compacting potential nominal compression of these structures (BIBER; GRAY, 2016; GRAY, 2015; HERRERO-ZORITA; SANDOVAL, 2016). This can be advantageous for word/page-restricted texts. Following the basic tenets of Corpus Linguistics (SINCLAIR, 2005; SARDINHA, 2004; LÜDELING; KYTÖ, 2008; McENERY; HARDIE, 2012; GRIES, 2009; DAVIES, 2015) and based on the notion of English as a Lingua Franca (JENKINS, 2013; JENKINS; LEUNG, 2013; MAURANEN; HYNNINEN; RANTA, 2016; SEIDLHOFER, 2013), this thesis employs naturally-occurring texts carefully compiled in 250 Biology RAs from five high impact journals, leading to a total 1,294,161 tokens distributed in 3,500-7,500-word texts published from 2015 to 2019. A computational extension was devised to automatically retrieve the RAs. Natural Language Processing (NLP) software were used for data extraction and analysis, following the guidelines of Constituency and Dependency Grammar (JURAFSKY; MARTIN, 2019), in dialogue with Computational Linguistics. The extracted NPs were analyzed for frequency and distribution. 5,789 hyphenated premodifiers were then morpho-syntactically labeled. The statistically verified results confirm a preference for compact structures such as compound nouns, hyphenation and acronyms, showing scientific writing to be more compact and less explicit grammatically and semantically, in English. For co-occurrences, hyphenated premodifiers are favored.

Abstract

Esta dissertação objetiva investigar sintagmas nominais complexos em textos especializados produzidos em inglês. Especificamente, esta pesquisa visa examinar o uso de modificadores pré-nominais hifenizados em artigos acadêmicos de Biologia. Segundo Biber e Gray (2016), Gray (2015), Pirrelli, Guevara e Baroni (2010) e Biber et al (1999), a escrita científica tende a ser caracterizada por construções nominais complexas, compactadas, dado seu forte potencial de compactação (BIBER; GRAY, 2016; GRAY, 2015; HERRERO-ZORITA; SANDOVAL, 2016). Isso pode ser vantajoso para a escrita de textos restritos em número de palavras ou páginas. Conforme os princípios básicos da Linguística de Corpus (SINCLAIR, 2005; SARDINHA, 2004; LÜDELING; KYTÖ, 2008; GRIES, 2009; McENERY; HARDIE, 2012; DAVIES, 2015) e com base na concepção de English as a Lingua Franca (JENKINS, 2013; JENKINS; LEUNG, 2013; MAURANEN; HYNNINEN; RANTA, 2016; SEIDLHOFER, 2013) este estudo utiliza textos autênticos cuidadosamente compilados para ser processados e tratados computacionalmente. Para tanto, um corpus de 250 artigos de Biologia foi compilado com base em cinco periódicos de alto impacto, totalizando 1.294.161 tokens distribuídos em textos de 3.500 e 7.500 palavras, publicados entre 2015 a 2019. Para a compilar os artigos automaticamente, uma extensão computacional foi desenvolvida. Softwares de Processamento da Linguagem Natural (PLN) foram empregados na extração e análise dos dados, conforme as diretrizes de Constituency e Dependency Grammar (JURAFSKY; MARTIN, 2019), em forte diálogo com a Linguística Computational. A análise voltou-se para a frequência e distribuição dos sintagmas nominais complexos extraídos e para um total de 5.789 sintagmas complexos com pré-modificados hifenizados, todos etiquetados morfossintaticamente de forma manual. Os resultados confirmam preferência por estruturas compactas como substantivos compostos, hifenização e acrônimos, verificadas estatisticamente, evidenciando a escrita científica como mais compactada e menos explícita gramatical e semanticamente, em inglês. Em situações de co-ocorrência, pré-modificadores hifenizados são favorecidos.

Assunto

Linguística de corpus, Linguística – Processamento de dados, Redação acadêmica, Língua inglesa – Sintagma nominal

Palavras-chave

Research articles, Complex noun phrases

URI

https://hdl.handle.net/1843/34956

Departamento

FALE - FACULDADE DE LETRAS

Curso

Programa de Pós-Graduação em Estudos Linguísticos

Coleções

Pós-Graduação em Estudos Lingüísticos - Dissertações

Licença Creative Commons

Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso Aberto

Página do item completo

A corpus-based study of hyphenated premodifiers in complex NPs in biology research articles

Arquivos

Data

Autor(es)

Título da Revista

ISSN da Revista

Título de Volume

Editor

Descrição

Tipo

Título alternativo

Primeiro orientador

Membros da banca

Resumo

Abstract

Assunto

Palavras-chave

Citação

URI

Departamento

Curso

Endereço externo

Coleções

Avaliação

Revisão

Suplementado Por

Referenciado Por

Licença Creative Commons