A corpus-based study of hyphenated premodifiers in complex NPs in biology research articles

Elisa  Mattos de Sá

A corpus-based study of hyphenated premodifiers in complex NPs in biology research articles

dc.creator	Elisa Mattos de Sá
dc.date.accessioned	2021-02-04T15:34:03Z
dc.date.accessioned	2025-09-08T23:14:46Z
dc.date.available	2021-02-04T15:34:03Z
dc.date.issued	2020-02-14
dc.description.abstract	Esta dissertação objetiva investigar sintagmas nominais complexos em textos especializados produzidos em inglês. Especificamente, esta pesquisa visa examinar o uso de modificadores pré-nominais hifenizados em artigos acadêmicos de Biologia. Segundo Biber e Gray (2016), Gray (2015), Pirrelli, Guevara e Baroni (2010) e Biber et al (1999), a escrita científica tende a ser caracterizada por construções nominais complexas, compactadas, dado seu forte potencial de compactação (BIBER; GRAY, 2016; GRAY, 2015; HERRERO-ZORITA; SANDOVAL, 2016). Isso pode ser vantajoso para a escrita de textos restritos em número de palavras ou páginas. Conforme os princípios básicos da Linguística de Corpus (SINCLAIR, 2005; SARDINHA, 2004; LÜDELING; KYTÖ, 2008; GRIES, 2009; McENERY; HARDIE, 2012; DAVIES, 2015) e com base na concepção de English as a Lingua Franca (JENKINS, 2013; JENKINS; LEUNG, 2013; MAURANEN; HYNNINEN; RANTA, 2016; SEIDLHOFER, 2013) este estudo utiliza textos autênticos cuidadosamente compilados para ser processados e tratados computacionalmente. Para tanto, um corpus de 250 artigos de Biologia foi compilado com base em cinco periódicos de alto impacto, totalizando 1.294.161 tokens distribuídos em textos de 3.500 e 7.500 palavras, publicados entre 2015 a 2019. Para a compilar os artigos automaticamente, uma extensão computacional foi desenvolvida. Softwares de Processamento da Linguagem Natural (PLN) foram empregados na extração e análise dos dados, conforme as diretrizes de Constituency e Dependency Grammar (JURAFSKY; MARTIN, 2019), em forte diálogo com a Linguística Computational. A análise voltou-se para a frequência e distribuição dos sintagmas nominais complexos extraídos e para um total de 5.789 sintagmas complexos com pré-modificados hifenizados, todos etiquetados morfossintaticamente de forma manual. Os resultados confirmam preferência por estruturas compactas como substantivos compostos, hifenização e acrônimos, verificadas estatisticamente, evidenciando a escrita científica como mais compactada e menos explícita gramatical e semanticamente, em inglês. Em situações de co-ocorrência, pré-modificadores hifenizados são favorecidos.
dc.identifier.uri	https://hdl.handle.net/1843/34956
dc.language	eng
dc.publisher	Universidade Federal de Minas Gerais
dc.rights	Acesso Aberto
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
dc.subject	Linguística de corpus
dc.subject	Linguística – Processamento de dados
dc.subject	Redação acadêmica
dc.subject	Língua inglesa – Sintagma nominal
dc.subject.other	Research articles
dc.subject.other	Complex noun phrases
dc.title	A corpus-based study of hyphenated premodifiers in complex NPs in biology research articles
dc.type	Dissertação de mestrado
local.contributor.advisor1	Deise Prina Dutra
local.contributor.advisor1Lattes	http://lattes.cnpq.br/3000229202863164
local.contributor.referee1	Valdinéia de Carvalho Almeida
local.contributor.referee1	Bárbara Malveira Orfanó
local.creator.Lattes	http://lattes.cnpq.br/5108972381990293
local.description.resumo	The purpose of this thesis is to investigate noun phrase (NP) complexity in specialized texts produced in English. Specifically, this research examines the use of hyphenated premodifiers in complex NPs in Biology research articles (RAs). As argued in Biber and Gray (2016), Gray (2015), Pirrelli, Guevara and Baroni (2010), and Biber et al (1999), science writing has as one of its defining features the use of compressed, complex nominal structures. Such preference is often associated with the strong compacting potential nominal compression of these structures (BIBER; GRAY, 2016; GRAY, 2015; HERRERO-ZORITA; SANDOVAL, 2016). This can be advantageous for word/page-restricted texts. Following the basic tenets of Corpus Linguistics (SINCLAIR, 2005; SARDINHA, 2004; LÜDELING; KYTÖ, 2008; McENERY; HARDIE, 2012; GRIES, 2009; DAVIES, 2015) and based on the notion of English as a Lingua Franca (JENKINS, 2013; JENKINS; LEUNG, 2013; MAURANEN; HYNNINEN; RANTA, 2016; SEIDLHOFER, 2013), this thesis employs naturally-occurring texts carefully compiled in 250 Biology RAs from five high impact journals, leading to a total 1,294,161 tokens distributed in 3,500-7,500-word texts published from 2015 to 2019. A computational extension was devised to automatically retrieve the RAs. Natural Language Processing (NLP) software were used for data extraction and analysis, following the guidelines of Constituency and Dependency Grammar (JURAFSKY; MARTIN, 2019), in dialogue with Computational Linguistics. The extracted NPs were analyzed for frequency and distribution. 5,789 hyphenated premodifiers were then morpho-syntactically labeled. The statistically verified results confirm a preference for compact structures such as compound nouns, hyphenation and acronyms, showing scientific writing to be more compact and less explicit grammatically and semantically, in English. For co-occurrences, hyphenated premodifiers are favored.
local.identifier.orcid	https://orcid.org/0000-0002-4787-1837
local.publisher.country	Brasil
local.publisher.department	FALE - FACULDADE DE LETRAS
local.publisher.initials	UFMG
local.publisher.program	Programa de Pós-Graduação em Estudos Linguísticos

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: MA thesis - Elisa Mattos -arquivo completo.pdf
Tamanho:: 4.84 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.07 KB
Formato:: Plain Text
Descrição:

Baixar

Coleções

Pós-Graduação em Estudos Lingüísticos - Dissertações