A corpus-based study of hyphenated premodifiers in complex NPs in biology research articles

dc.creatorElisa Mattos de Sá
dc.date.accessioned2021-02-04T15:34:03Z
dc.date.accessioned2025-09-08T23:14:46Z
dc.date.available2021-02-04T15:34:03Z
dc.date.issued2020-02-14
dc.description.abstractEsta dissertação objetiva investigar sintagmas nominais complexos em textos especializados produzidos em inglês. Especificamente, esta pesquisa visa examinar o uso de modificadores pré-nominais hifenizados em artigos acadêmicos de Biologia. Segundo Biber e Gray (2016), Gray (2015), Pirrelli, Guevara e Baroni (2010) e Biber et al (1999), a escrita científica tende a ser caracterizada por construções nominais complexas, compactadas, dado seu forte potencial de compactação (BIBER; GRAY, 2016; GRAY, 2015; HERRERO-ZORITA; SANDOVAL, 2016). Isso pode ser vantajoso para a escrita de textos restritos em número de palavras ou páginas. Conforme os princípios básicos da Linguística de Corpus (SINCLAIR, 2005; SARDINHA, 2004; LÜDELING; KYTÖ, 2008; GRIES, 2009; McENERY; HARDIE, 2012; DAVIES, 2015) e com base na concepção de English as a Lingua Franca (JENKINS, 2013; JENKINS; LEUNG, 2013; MAURANEN; HYNNINEN; RANTA, 2016; SEIDLHOFER, 2013) este estudo utiliza textos autênticos cuidadosamente compilados para ser processados e tratados computacionalmente. Para tanto, um corpus de 250 artigos de Biologia foi compilado com base em cinco periódicos de alto impacto, totalizando 1.294.161 tokens distribuídos em textos de 3.500 e 7.500 palavras, publicados entre 2015 a 2019. Para a compilar os artigos automaticamente, uma extensão computacional foi desenvolvida. Softwares de Processamento da Linguagem Natural (PLN) foram empregados na extração e análise dos dados, conforme as diretrizes de Constituency e Dependency Grammar (JURAFSKY; MARTIN, 2019), em forte diálogo com a Linguística Computational. A análise voltou-se para a frequência e distribuição dos sintagmas nominais complexos extraídos e para um total de 5.789 sintagmas complexos com pré-modificados hifenizados, todos etiquetados morfossintaticamente de forma manual. Os resultados confirmam preferência por estruturas compactas como substantivos compostos, hifenização e acrônimos, verificadas estatisticamente, evidenciando a escrita científica como mais compactada e menos explícita gramatical e semanticamente, em inglês. Em situações de co-ocorrência, pré-modificadores hifenizados são favorecidos.
dc.identifier.urihttps://hdl.handle.net/1843/34956
dc.languageeng
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/pt/
dc.subjectLinguística de corpus
dc.subjectLinguística – Processamento de dados
dc.subjectRedação acadêmica
dc.subjectLíngua inglesa – Sintagma nominal
dc.subject.otherResearch articles
dc.subject.otherComplex noun phrases
dc.titleA corpus-based study of hyphenated premodifiers in complex NPs in biology research articles
dc.typeDissertação de mestrado
local.contributor.advisor1Deise Prina Dutra
local.contributor.advisor1Latteshttp://lattes.cnpq.br/3000229202863164
local.contributor.referee1Valdinéia de Carvalho Almeida
local.contributor.referee1Bárbara Malveira Orfanó
local.creator.Latteshttp://lattes.cnpq.br/5108972381990293
local.description.resumoThe purpose of this thesis is to investigate noun phrase (NP) complexity in specialized texts produced in English. Specifically, this research examines the use of hyphenated premodifiers in complex NPs in Biology research articles (RAs). As argued in Biber and Gray (2016), Gray (2015), Pirrelli, Guevara and Baroni (2010), and Biber et al (1999), science writing has as one of its defining features the use of compressed, complex nominal structures. Such preference is often associated with the strong compacting potential nominal compression of these structures (BIBER; GRAY, 2016; GRAY, 2015; HERRERO-ZORITA; SANDOVAL, 2016). This can be advantageous for word/page-restricted texts. Following the basic tenets of Corpus Linguistics (SINCLAIR, 2005; SARDINHA, 2004; LÜDELING; KYTÖ, 2008; McENERY; HARDIE, 2012; GRIES, 2009; DAVIES, 2015) and based on the notion of English as a Lingua Franca (JENKINS, 2013; JENKINS; LEUNG, 2013; MAURANEN; HYNNINEN; RANTA, 2016; SEIDLHOFER, 2013), this thesis employs naturally-occurring texts carefully compiled in 250 Biology RAs from five high impact journals, leading to a total 1,294,161 tokens distributed in 3,500-7,500-word texts published from 2015 to 2019. A computational extension was devised to automatically retrieve the RAs. Natural Language Processing (NLP) software were used for data extraction and analysis, following the guidelines of Constituency and Dependency Grammar (JURAFSKY; MARTIN, 2019), in dialogue with Computational Linguistics. The extracted NPs were analyzed for frequency and distribution. 5,789 hyphenated premodifiers were then morpho-syntactically labeled. The statistically verified results confirm a preference for compact structures such as compound nouns, hyphenation and acronyms, showing scientific writing to be more compact and less explicit grammatically and semantically, in English. For co-occurrences, hyphenated premodifiers are favored.
local.identifier.orcidhttps://orcid.org/0000-0002-4787-1837
local.publisher.countryBrasil
local.publisher.departmentFALE - FACULDADE DE LETRAS
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Estudos Linguísticos

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
MA thesis - Elisa Mattos -arquivo completo.pdf
Tamanho:
4.84 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Plain Text
Descrição: