A computational framework for measuring and analyzing gender bias in portuguese-language literary texts

Carregando...
Imagem de Miniatura

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Minas Gerais

Descrição

Tipo

Tese de doutorado

Título alternativo

Estrutura computacional para medir e analisar o viés de gênero em textos literários em língua portuguesa

Primeiro orientador

Membros da banca

Gisele Lobo Pappa
Karin Becker
Ticiana Linhares Coelho da Silva
Evandro Landulfo Teixeira Paradela Cunha

Resumo

Literature has long operated as a medium through which societies reproduce and transform social biases, with gender bias being one of the most pervasive. Such bias is linguistically encoded in narratives through recurring patterns, including adjectives, verbs, and syntactic structures that define how characters are described, thereby reinforcing cultural stereotypes of femininity and masculinity. While traditional literary criticism grounded in close reading offers nuanced interpretive insights, it remains limited in scope and scalability. Despite advances at the intersection of gender studies and computational linguistics, existing research remains concentrated on English and other high-resource languages. Research on literary texts in Portuguese is considerably underrepresented compared to other languages, both in the availability of computational resources and in large-scale analyses of gendered representation. To bridge these research gaps, this dissertation proposes a computational framework for measuring and analyzing gender bias in Portuguese-language literary texts. Our framework integrates interpretive literary analysis with computational methods and Natural Language Processing (NLP) within a distant reading paradigm, combining stages such as character identification, gender inference and bias quantification. Beyond literary inquiry, understanding how bias is linguistically encoded is crucial for the ethical development of language models, which frequently inherit historical and cultural asymmetries from their training data. By revealing systematic gendered patterns across historical periods and literary genres, this work contributes to literary scholarship and advances NLP research by providing a replicable framework and resources for gender bias analysis in Portuguese-language literary texts.

Abstract

A literatura tem operado como um meio através do qual as sociedades reproduzem e transformam vieses sociais, sendo o viés de gênero um dos mais persistentes. Tal viés é linguisticamente codificado nas narrativas por meio de padrões recorrentes, incluindo adjetivos, verbos e estruturas sintáticas que definem como os personagens são descritos, reforçando, assim, estereótipos culturais de feminilidade e masculinidade. Enquanto a crítica literária tradicional, fundamentada na close reading, oferece insights interpretativos detalhados, ela permanece limitada em escopo e escalabilidade. Apesar dos avanços na interseção entre estudos de gênero e linguística computacional, a pesquisa existente continua concentrada no inglês e em outras línguas de grande disponibilidade de recursos. A pesquisa sobre textos literários em português é consideravelmente sub-representada em comparação com outras línguas, tanto na disponibilidade de recursos computacionais quanto em análises em larga escala da representação de gênero. Para preencher essas lacunas de pesquisa, esta tese propõe um framework computacional para medir e analisar o viés de gênero em textos literários de língua portuguesa. O framework integra a análise literária interpretativa com métodos computacionais e Processamento de Linguagem Natural (PLN) dentro de um paradigma de distant reading, combinando etapas como identificação de personagens, inferência de gênero e quantificação de viés. Além da investigação literária, compreender como o viés é linguisticamente codificado é crucial para o desenvolvimento ético de modelos de linguagem, que frequentemente herdam assimetrias históricas e culturais a partir de seus dados de treinamento. Ao revelar padrões sistemáticos de gênero em diferentes períodos históricos e gêneros literários, este trabalho contribui para os estudos literários e avança a pesquisa em PLN ao fornecer um framework replicável e recursos para a análise de viés de gênero em textos literários em português.

Assunto

Computação – Teses, Recuperação da informação – Teses, Processamento de linguagem natural – Teses, Mineração de dados (Computação) – Teses, Identidade de gênero na literatura – Teses, Língua portuguesa – Análise de Textos – Teses

Palavras-chave

Gender bias, Natural Language Processing, Text mining, Literary analysis, Literature in Portuguese, Distant reading

Citação

Endereço externo

Avaliação

Revisão

Suplementado Por

Referenciado Por