Use este identificador para citar o ir al link de este elemento: http://hdl.handle.net/1843/LETR-B8QFX3
Tipo: Dissertação de Mestrado
Título: Beyond Readability: a corpus-based proposal for text difficulty analysis
Autor(es): Filipe Rubini Castano
primer Tutor: Heliana Ribeiro de Mello
primer miembro del tribunal : Vander Paula Viana
Segundo miembro del tribunal: Ricardo Augusto de Souza
Resumen: Desde a primeira metade do século 20 (Flesch, 1948), a tarefa deavaliar a dificuldade de textos tem sido primariamente enfrentadaatravés do design e uso de fórmulas de legibilidade (readability formulas) em diversas áreas: a seleção de livros para crianças em determinadas séries escolares (Spache, 1953), a simplificação de assuntos complexos, como textos de medicina e de direito (L. M. Bakeret al., 1997; Razek et al., 1982) e, em anos recentes, auxiliar escritoresa se tornarem mais inteligíveis (Readable.io s.d.). Contudo, há pouca demonstração empírica da validade de fórmulas de legibilidade, como evidenciado, por exemplo, em Begeny e Greene (2014), Leroy e Kauchak (2014), Schriver (2000) e Sydes e Hartley (1997), e muitas das ferramentas que estão disponíveis para a avaliação de dificuldade de texto, por exemplo Miltsakaki e Troutt (2007), dependem dessas fórmulas para funcionar. Além disso, essas ferramentas são bastante limitadas, feitas para serem usadas com uma língua, tipo de texto, e público específicos. Neste trabalho, desenvolvemos uma abordagem baseada em corpus e focada no léxico, para propor uma Escala de Dificuldade de Texto (EDT), a qual, ao contrário de abordagens anteriores, é adaptável a textos em praticamente qualquer língua, incluindo as que utilizam sistemas de escrita não latinos. Para alcançar esse objetivo, utilizamos medidas estatísticas mais sólidas, tais como o desvio de proporções (DP) (Gries, 2008, 2010); incluímos 2-grams e3-grams como fontes de expressões numerosas e frequentementenegligenciadas (Bu et al., 2011, p. 3); e construímos uma coleçãode textos de mais de 60 milhões de tokens de artigos da Wikipediaem inglês, para demonstração. Ademais, tornamos nosso trabalhode código livre disponível gratuitamente, como um conjunto deJupyter Notebooks escritos na língua de programação Python.Argumentamos que nossa proposta não somente oferece umamedida flexível e muito necessária de dificuldade de textos, especialmente no que tange a professores e alunos de línguas estrangeiras, mas que também poderia ser útil para pesquisadores em linguística cognitiva e psicolinguística, editores, escritores, e criançasem processo de aquisição de sua primeira língua.
Abstract: Since the first half of the twentieth century (Flesch, 1948), the taskof assessing text difficulty has been primarily tackled by the designand use of readability formulas in many areas: selecting grade levelappropriate books for schoolchildren (Spache, 1953), simplifyingdense subjects, such as medical and legal texts (L. M. Baker et al.,1997; Razek et al., 1982), and, in more recent years, assisting writersin making themselves more understandable (Readable.io n.d.).However, there is little empirical demonstration of the validity of readability formulas, as shown for instance in Begeny and Greene (2014), Leroy and Kauchak (2014), Schriver (2000), and Sydes and Hartley (1997), and many of the tools that are currently available for assessing text difficulty, e.g. ATOS for Text, ATOS for Books (n.d.), Miltsakaki and Troutt (2007), and Readable.io (n.d.), depend on those formulas to function. In addition, these tools are quite limited, meant to be used for a specific language, text type, and intended audience. In this work, we develop a corpus linguistics-based, lexiconoriented approach to propose a Text Difficulty Scale (TDS) which, conversely to previous efforts, can be adapted for texts of virtually any language, including those that use non-Latin writing systems. To that end, we have used sounder statistical measurements, such as deviation of proportions (DP) (Gries, 2008, 2010); included 2-grams and 3-grams as sources of numerous yet often disregardedidioms and phrasemes (Bu et al., 2011, p. 3); and built a 60+ milliontoken collection of Wikipedia articles in English for demonstrationpurposes. Furthermore, we have made our work available, free and open-source, as a set of Jupyter Notebooks in the Pythonprogramming language. We argue that our proposal not only offers a much-needed flexible measurement of text difficulty, in particular for teachers and students of foreign languages, but also that it could be useful for researchers in cognitive linguistics and psycholinguistics, editors, writers, and children acquiring their first language
Asunto: Lingüística Metodologia
Vocabulario
Linguística de corpus
Idioma: Português
Editor: Universidade Federal de Minas Gerais
Sigla da Institución: UFMG
Tipo de acceso: Acesso Aberto
URI: http://hdl.handle.net/1843/LETR-B8QFX3
Fecha del documento: 9-nov-2018
Aparece en las colecciones:Dissertações de Mestrado

archivos asociados a este elemento:
archivo Descripción TamañoFormato 
1971m.pdf11.97 MBAdobe PDFVisualizar/Abrir


Los elementos en el repositorio están protegidos por copyright, con todos los derechos reservados, salvo cuando es indicado lo contrario.