Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/MGSS-A9KGY5
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Deise Prina Dutrapt_BR
dc.contributor.referee1Crysttian Arantes Paixãopt_BR
dc.contributor.referee2Barbara Malveira Orfanopt_BR
dc.creatorAndressa Rodrigues Gomidept_BR
dc.date.accessioned2019-08-14T21:55:50Z-
dc.date.available2019-08-14T21:55:50Z-
dc.date.issued2016-03-21pt_BR
dc.identifier.urihttp://hdl.handle.net/1843/MGSS-A9KGY5-
dc.description.abstractThis master thesis deals with the technical and methodological aspects in creating, cleaning and processing a Brazilian university level learner corpus, the Corpus do Inglês sem Fronteiras (CorIsF) v 1.0. The two main goals of this study consist of making the processing of CorIsF replicable and in investigating and describing the variation of some linguistic characteristics across different learner groups, tasks andgenres. The procedure was carried in R, a free software environment for statistical computing and graphics, and was divided in four parts: dataset compilation and preprocessing; dataset processing; extraction of the key features; and data visualization. The first step deals with the method used to collect the data and to do the first cleaning process, such as eliminating unwanted data and keeping the relevant ones. In the following step, CorIsF was subset in five small corpora covering different learner profiles, two different tasks, and on genre, and annotated with a part-ofspeech (POS) tagger. In the third step the variability of POS within subcorpora, the frequency of types and tokens, and the usage of n-grams were investigated. In the final step some exploratory data visualization were performed with the creation and analysis of plots and wordclouds. After the preparation of the data, the language used in each subcorpora was contrasted and analysed, suggesting that task, genre and student background are likely to influence learners written production.pt_BR
dc.description.resumoEsta dissertação trata dos aspectos técnicos e metodológicos na criação, limpeza e processamento de um corpus de nível universitário de aprendizes brasileiros, o Corpus do Inglês sem Fronteiras (CorIsF) v 1.0. Os dois principais objetivos deste estudo consistem em tornar replicável o processamento do CorIsF e em investigar e descrever a variação de algumas características linguísticas em diferentes perfis de alunos, tarefas e gêneros. O procedimento foi realizado com auxílio da ferramenta R, um ambiente de software livre para computação estatística e gráfica, e foi dividido em quatro partes: a compilação e o pré-processamento do conjunto de dados; o processamento do corpus; a extração de principais aspectos; e a visualização de dados. O primeiro passo lida com os passos utilizados para coletar os dados e fazer oprimeiro processo de limpeza, tais como a eliminação de dados indesejados e manutenção de informações relevantes. No passo seguinte, CorIsF foi subdivido em cinco pequenos corpora que cobrem diferentes perfis de alunos, tarefas e gênero e anotado com um etiquetador de classes gramaticais. No terceiro passo, a variabilidade de classes gramaticais em cada subcorpus, a frequência de types e tokens, e a utilização de n-gramas foram investigados. Na etapa final algumas visualizações como nuvens de palavras e gráficos foram geradas para análise dos dados. Após a preparação dos dados, a linguagem utilizada em cada subcorpora foi contrastada e analisada, sugerindo que a tarefa, o gênero e o perfil aluno são propensos a influenciar a produção escrita dos alunos.pt_BR
dc.languagePortuguêspt_BR
dc.publisherUniversidade Federal de Minas Geraispt_BR
dc.publisher.initialsUFMGpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectInglês para fins acadêmicospt_BR
dc.subjectCorpus de aprendizpt_BR
dc.subjectDesenho de corpuspt_BR
dc.subject.otherLíngua inglesa Estudo e ensino Falantes de português Brasilpt_BR
dc.subject.otherLíngua inglesa Estudo e ensino Falantes estrangeirospt_BR
dc.subject.otherLingüística textualpt_BR
dc.subject.otherAquisição da segunda linguagempt_BR
dc.subject.otherLingua inglesa Gramaticapt_BR
dc.subject.otherLinguística de corpuspt_BR
dc.titleProcessing a learner corpus to identify differences: the influence of task, genre and student backgroundpt_BR
dc.typeDissertação de Mestradopt_BR
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
processing_a_learner_corpus_to_identify_differences.pdf2.49 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.