Beyond Readability: a corpus-based proposal for text difficulty analysis

Filipe Rubini Castano

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/LETR-B8QFX3

Type:	Dissertação de Mestrado
Title:	Beyond Readability: a corpus-based proposal for text difficulty analysis
Authors:	Filipe Rubini Castano
First Advisor:	Heliana Ribeiro de Mello
First Referee:	Vander Paula Viana
Second Referee:	Ricardo Augusto de Souza
Abstract:	Desde a primeira metade do século 20 (Flesch, 1948), a tarefa deavaliar a dificuldade de textos tem sido primariamente enfrentadaatravés do design e uso de fórmulas de legibilidade (readability formulas) em diversas áreas: a seleção de livros para crianças em determinadas séries escolares (Spache, 1953), a simplificação de assuntos complexos, como textos de medicina e de direito (L. M. Bakeret al., 1997; Razek et al., 1982) e, em anos recentes, auxiliar escritoresa se tornarem mais inteligíveis (Readable.io s.d.). Contudo, há pouca demonstração empírica da validade de fórmulas de legibilidade, como evidenciado, por exemplo, em Begeny e Greene (2014), Leroy e Kauchak (2014), Schriver (2000) e Sydes e Hartley (1997), e muitas das ferramentas que estão disponíveis para a avaliação de dificuldade de texto, por exemplo Miltsakaki e Troutt (2007), dependem dessas fórmulas para funcionar. Além disso, essas ferramentas são bastante limitadas, feitas para serem usadas com uma língua, tipo de texto, e público específicos. Neste trabalho, desenvolvemos uma abordagem baseada em corpus e focada no léxico, para propor uma Escala de Dificuldade de Texto (EDT), a qual, ao contrário de abordagens anteriores, é adaptável a textos em praticamente qualquer língua, incluindo as que utilizam sistemas de escrita não latinos. Para alcançar esse objetivo, utilizamos medidas estatísticas mais sólidas, tais como o desvio de proporções (DP) (Gries, 2008, 2010); incluímos 2-grams e3-grams como fontes de expressões numerosas e frequentementenegligenciadas (Bu et al., 2011, p. 3); e construímos uma coleçãode textos de mais de 60 milhões de tokens de artigos da Wikipediaem inglês, para demonstração. Ademais, tornamos nosso trabalhode código livre disponível gratuitamente, como um conjunto deJupyter Notebooks escritos na língua de programação Python.Argumentamos que nossa proposta não somente oferece umamedida flexível e muito necessária de dificuldade de textos, especialmente no que tange a professores e alunos de línguas estrangeiras, mas que também poderia ser útil para pesquisadores em linguística cognitiva e psicolinguística, editores, escritores, e criançasem processo de aquisição de sua primeira língua.
Abstract:	Since the first half of the twentieth century (Flesch, 1948), the taskof assessing text difficulty has been primarily tackled by the designand use of readability formulas in many areas: selecting grade levelappropriate books for schoolchildren (Spache, 1953), simplifyingdense subjects, such as medical and legal texts (L. M. Baker et al.,1997; Razek et al., 1982), and, in more recent years, assisting writersin making themselves more understandable (Readable.io n.d.).However, there is little empirical demonstration of the validity of readability formulas, as shown for instance in Begeny and Greene (2014), Leroy and Kauchak (2014), Schriver (2000), and Sydes and Hartley (1997), and many of the tools that are currently available for assessing text difficulty, e.g. ATOS for Text, ATOS for Books (n.d.), Miltsakaki and Troutt (2007), and Readable.io (n.d.), depend on those formulas to function. In addition, these tools are quite limited, meant to be used for a specific language, text type, and intended audience. In this work, we develop a corpus linguistics-based, lexiconoriented approach to propose a Text Difficulty Scale (TDS) which, conversely to previous efforts, can be adapted for texts of virtually any language, including those that use non-Latin writing systems. To that end, we have used sounder statistical measurements, such as deviation of proportions (DP) (Gries, 2008, 2010); included 2-grams and 3-grams as sources of numerous yet often disregardedidioms and phrasemes (Bu et al., 2011, p. 3); and built a 60+ milliontoken collection of Wikipedia articles in English for demonstrationpurposes. Furthermore, we have made our work available, free and open-source, as a set of Jupyter Notebooks in the Pythonprogramming language. We argue that our proposal not only offers a much-needed flexible measurement of text difficulty, in particular for teachers and students of foreign languages, but also that it could be useful for researchers in cognitive linguistics and psycholinguistics, editors, writers, and children acquiring their first language
Subject:	Lingüística Metodologia Vocabulario Linguística de corpus
language:	Português
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
Rights:	Acesso Aberto
URI:	http://hdl.handle.net/1843/LETR-B8QFX3
Issue Date:	9-Nov-2018
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
1971m.pdf		11.97 MB	Adobe PDF	View/Open

Show full item record