A corpus-based study of hyphenated premodifiers in complex NPs in biology research articles

Elisa  Mattos de Sá

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/34956

Type:	Dissertação
Title:	A corpus-based study of hyphenated premodifiers in complex NPs in biology research articles
Authors:	Elisa Mattos de Sá
First Advisor:	Deise Prina Dutra
First Referee:	Valdinéia de Carvalho Almeida
Second Referee:	Bárbara Malveira Orfanó
Abstract:	The purpose of this thesis is to investigate noun phrase (NP) complexity in specialized texts produced in English. Specifically, this research examines the use of hyphenated premodifiers in complex NPs in Biology research articles (RAs). As argued in Biber and Gray (2016), Gray (2015), Pirrelli, Guevara and Baroni (2010), and Biber et al (1999), science writing has as one of its defining features the use of compressed, complex nominal structures. Such preference is often associated with the strong compacting potential nominal compression of these structures (BIBER; GRAY, 2016; GRAY, 2015; HERRERO-ZORITA; SANDOVAL, 2016). This can be advantageous for word/page-restricted texts. Following the basic tenets of Corpus Linguistics (SINCLAIR, 2005; SARDINHA, 2004; LÜDELING; KYTÖ, 2008; McENERY; HARDIE, 2012; GRIES, 2009; DAVIES, 2015) and based on the notion of English as a Lingua Franca (JENKINS, 2013; JENKINS; LEUNG, 2013; MAURANEN; HYNNINEN; RANTA, 2016; SEIDLHOFER, 2013), this thesis employs naturally-occurring texts carefully compiled in 250 Biology RAs from five high impact journals, leading to a total 1,294,161 tokens distributed in 3,500-7,500-word texts published from 2015 to 2019. A computational extension was devised to automatically retrieve the RAs. Natural Language Processing (NLP) software were used for data extraction and analysis, following the guidelines of Constituency and Dependency Grammar (JURAFSKY; MARTIN, 2019), in dialogue with Computational Linguistics. The extracted NPs were analyzed for frequency and distribution. 5,789 hyphenated premodifiers were then morpho-syntactically labeled. The statistically verified results confirm a preference for compact structures such as compound nouns, hyphenation and acronyms, showing scientific writing to be more compact and less explicit grammatically and semantically, in English. For co-occurrences, hyphenated premodifiers are favored.
Abstract:	Esta dissertação objetiva investigar sintagmas nominais complexos em textos especializados produzidos em inglês. Especificamente, esta pesquisa visa examinar o uso de modificadores pré-nominais hifenizados em artigos acadêmicos de Biologia. Segundo Biber e Gray (2016), Gray (2015), Pirrelli, Guevara e Baroni (2010) e Biber et al (1999), a escrita científica tende a ser caracterizada por construções nominais complexas, compactadas, dado seu forte potencial de compactação (BIBER; GRAY, 2016; GRAY, 2015; HERRERO-ZORITA; SANDOVAL, 2016). Isso pode ser vantajoso para a escrita de textos restritos em número de palavras ou páginas. Conforme os princípios básicos da Linguística de Corpus (SINCLAIR, 2005; SARDINHA, 2004; LÜDELING; KYTÖ, 2008; GRIES, 2009; McENERY; HARDIE, 2012; DAVIES, 2015) e com base na concepção de English as a Lingua Franca (JENKINS, 2013; JENKINS; LEUNG, 2013; MAURANEN; HYNNINEN; RANTA, 2016; SEIDLHOFER, 2013) este estudo utiliza textos autênticos cuidadosamente compilados para ser processados e tratados computacionalmente. Para tanto, um corpus de 250 artigos de Biologia foi compilado com base em cinco periódicos de alto impacto, totalizando 1.294.161 tokens distribuídos em textos de 3.500 e 7.500 palavras, publicados entre 2015 a 2019. Para a compilar os artigos automaticamente, uma extensão computacional foi desenvolvida. Softwares de Processamento da Linguagem Natural (PLN) foram empregados na extração e análise dos dados, conforme as diretrizes de Constituency e Dependency Grammar (JURAFSKY; MARTIN, 2019), em forte diálogo com a Linguística Computational. A análise voltou-se para a frequência e distribuição dos sintagmas nominais complexos extraídos e para um total de 5.789 sintagmas complexos com pré-modificados hifenizados, todos etiquetados morfossintaticamente de forma manual. Os resultados confirmam preferência por estruturas compactas como substantivos compostos, hifenização e acrônimos, verificadas estatisticamente, evidenciando a escrita científica como mais compactada e menos explícita gramatical e semanticamente, em inglês. Em situações de co-ocorrência, pré-modificadores hifenizados são favorecidos.
Subject:	Linguística de corpus Linguística – Processamento de dados Redação acadêmica Língua inglesa – Sintagma nominal
language:	eng
metadata.dc.publisher.country:	Brasil
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
metadata.dc.publisher.department:	FALE - FACULDADE DE LETRAS
metadata.dc.publisher.program:	Programa de Pós-Graduação em Estudos Linguísticos
Rights:	Acesso Aberto
metadata.dc.rights.uri:	http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
URI:	http://hdl.handle.net/1843/34956
Issue Date:	14-Feb-2020
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
MA thesis - Elisa Mattos -arquivo completo.pdf		4.96 MB	Adobe PDF	View/Open

Show full item record

This item is licensed under a Creative Commons License