Processing a learner corpus to identify differences: the influence of task, genre and student background

dc.creatorAndressa Rodrigues Gomide
dc.date.accessioned2019-08-14T21:55:50Z
dc.date.accessioned2025-09-08T23:39:36Z
dc.date.available2019-08-14T21:55:50Z
dc.date.issued2016-03-21
dc.description.abstractThis master thesis deals with the technical and methodological aspects in creating, cleaning and processing a Brazilian university level learner corpus, the Corpus do Inglês sem Fronteiras (CorIsF) v 1.0. The two main goals of this study consist of making the processing of CorIsF replicable and in investigating and describing the variation of some linguistic characteristics across different learner groups, tasks andgenres. The procedure was carried in R, a free software environment for statistical computing and graphics, and was divided in four parts: dataset compilation and preprocessing; dataset processing; extraction of the key features; and data visualization. The first step deals with the method used to collect the data and to do the first cleaning process, such as eliminating unwanted data and keeping the relevant ones. In the following step, CorIsF was subset in five small corpora covering different learner profiles, two different tasks, and on genre, and annotated with a part-ofspeech (POS) tagger. In the third step the variability of POS within subcorpora, the frequency of types and tokens, and the usage of n-grams were investigated. In the final step some exploratory data visualization were performed with the creation and analysis of plots and wordclouds. After the preparation of the data, the language used in each subcorpora was contrasted and analysed, suggesting that task, genre and student background are likely to influence learners written production.
dc.identifier.urihttps://hdl.handle.net/1843/MGSS-A9KGY5
dc.languagePortuguês
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.subjectLíngua inglesa Estudo e ensino Falantes de português Brasil
dc.subjectLíngua inglesa Estudo e ensino Falantes estrangeiros
dc.subjectLingüística textual
dc.subjectAquisição da segunda linguagem
dc.subjectLingua inglesa Gramatica
dc.subjectLinguística de corpus
dc.subject.otherInglês para fins acadêmicos
dc.subject.otherCorpus de aprendiz
dc.subject.otherDesenho de corpus
dc.titleProcessing a learner corpus to identify differences: the influence of task, genre and student background
dc.typeDissertação de mestrado
local.contributor.advisor1Deise Prina Dutra
local.contributor.referee1Crysttian Arantes Paixão
local.contributor.referee1Barbara Malveira Orfano
local.description.resumoEsta dissertação trata dos aspectos técnicos e metodológicos na criação, limpeza e processamento de um corpus de nível universitário de aprendizes brasileiros, o Corpus do Inglês sem Fronteiras (CorIsF) v 1.0. Os dois principais objetivos deste estudo consistem em tornar replicável o processamento do CorIsF e em investigar e descrever a variação de algumas características linguísticas em diferentes perfis de alunos, tarefas e gêneros. O procedimento foi realizado com auxílio da ferramenta R, um ambiente de software livre para computação estatística e gráfica, e foi dividido em quatro partes: a compilação e o pré-processamento do conjunto de dados; o processamento do corpus; a extração de principais aspectos; e a visualização de dados. O primeiro passo lida com os passos utilizados para coletar os dados e fazer oprimeiro processo de limpeza, tais como a eliminação de dados indesejados e manutenção de informações relevantes. No passo seguinte, CorIsF foi subdivido em cinco pequenos corpora que cobrem diferentes perfis de alunos, tarefas e gênero e anotado com um etiquetador de classes gramaticais. No terceiro passo, a variabilidade de classes gramaticais em cada subcorpus, a frequência de types e tokens, e a utilização de n-gramas foram investigados. Na etapa final algumas visualizações como nuvens de palavras e gráficos foram geradas para análise dos dados. Após a preparação dos dados, a linguagem utilizada em cada subcorpora foi contrastada e analisada, sugerindo que a tarefa, o gênero e o perfil aluno são propensos a influenciar a produção escrita dos alunos.
local.publisher.initialsUFMG

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
processing_a_learner_corpus_to_identify_differences.pdf
Tamanho:
2.43 MB
Formato:
Adobe Portable Document Format