Explainable models for automated essay scoring in the presence of biased scoring

Evelin Carvalho Freire de Amorim

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/33535

Type:	Tese
Title:	Explainable models for automated essay scoring in the presence of biased scoring
Authors:	Evelin Carvalho Freire de Amorim
First Advisor:	Adriano Alonso Veloso
First Co-advisor:	Márcia Maria Cançado Lima
First Referee:	Fabrício Benevenuto Souza
Second Referee:	Pedro Olmo Stancioli Vaz de Melo
Third Referee:	Cilene Aparecida Nunes Rodrigues Nevins
metadata.dc.contributor.referee4:	Helena de Medeiros Caseli
Abstract:	Redações são a maneira comum de selecionar candidatos para universidades; Portanto, os alunos precisam escrever redações o máximo possível. Por esse motivo, vários métodos para a correção automática de redação (AES) para o idioma inglês foi proposta. Tais métodos devem explicar a pontuação atribuída às redações e, em seguida, o aluno pode usar o feedback para melhorar suas habilidades de escrita. Portanto, muitos dos AES existentes empregam características curadas manualmente em vez de representação vetorial contínua, também chamados de word embeddings. O uso de características curadas manualmente, permite ao sistema dar feedback claro a um aluno. Características curadas por humanos também são úteis para examinar a pontuação atribuída por um sistema AES e até as pontuações de avaliadores humanos. Esse tipo de investigação é útil para identificar se os recursos relacionados a uma habilidade de escrita estão sendo considerados durante o avaliação, o que é essencial se desejarmos avaliações mais justas. Apresentamos neste trabalho uma metodologia AES para pontuar redações de acordo com cinco aspectos ou habilidades usando características curadas manualmente e algoritmos clássicos de aprendizado de máquina. Além disso, realizamos experimentos para analisar quais características influenciam quais aspectos em dois conjuntos de dados diferentes avaliados por dois avaliadores humanos distintos. o desempenho de cada aspecto é explicado pela análise de características. Além disso, exploramos a eficácia dos modelos de AES na presença de dados tendenciosos. Por fim, analisamos o comentários do avaliador sobre redações usando uma lista do léxico em português de palavras enviesadas, que foi montado por Cançado et al. [2019]. Diversas experiências demonstram a explicabilidade de nossos modelos e nossa proposta aumenta a eficácia dos modelos de AES. Os resultados referentes à explicação são claros e afirmam que algumas características são particularmente importantes para alguns aspectos, enquanto para outros aspectos, eles não são importantes. Também mostramos que o viés afeta a eficácia dos classificadores e quando as classificações tendenciosas são removidas do conjunto de dados, a precisão do modelo melhora.
Abstract:	Written essays are the common way to select candidates for universities; therefore, students need to write essays as many as possible. Because of this, several methods for Automatic Essay Scoring (AES) for the English language have been proposed. Such methods should explain the score assigned to essays, and then the student can use the feedback to improve his or her writing skills. Therefore, many of the existing AES proposals employ handcrafted features instead of continuous vector representation. By using handcrafted features, it is easier for the system to give feedback to a student. Handcrafted features are also helpful to scrutinize the score assigned by an AES sys- tem and even the scores of human evaluators. This kind of investigation is useful to identify whether the features related to a writing skill are being considered during the assessment, which is essential if we desire fairer evaluations. We present in this work an AES methodology to score essays according to five aspects or skills using handcrafted features and classical machine learning algorithms. In addition to that, we perform experiments to analyze which features influence which aspects in two different datasets evaluated by two distinct human evaluators. The performance of each aspect is explained by the feature analysis. Also, we explore the efficacy of AES models in the presence of biased data. Finally, we analyzed the evaluator’s comments about essays by using a Portuguese lexicon list of biased words, which was assembled by Cançado et al. [2019]. Several experiments demonstrate the explainability of our models, and our proposed approach enhances the efficacy of AES models. The results regarding explainability are clear and assert that some features are particularly important for some aspects, while for other aspects, they are unimportant. We also show that the bias affects the efficacy of the classifiers, and when biased ratings are removed from the dataset, the accuracy of the model improves.
Subject:	Computação - Teses Aprendizado de máquina Processamento de linguagem natural (Computação) Avaliação automática de ensaios
language:	eng
metadata.dc.publisher.country:	Brasil
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
metadata.dc.publisher.department:	ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
metadata.dc.publisher.program:	Programa de Pós-Graduação em Ciência da Computação
Rights:	Acesso Aberto
URI:	http://hdl.handle.net/1843/33535
Issue Date:	16-Dec-2019
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
evelin_proposal.pdf		17.32 MB	Adobe PDF	View/Open

Show full item record