Identificação e caracterização de conteúdo tóxico de usuários em comunidades brasileiras no Reddit

Luiz Henrique Quevedo Lima

Identificação e caracterização de conteúdo tóxico de usuários em comunidades brasileiras no Reddit

dc.creator	Luiz Henrique Quevedo Lima
dc.date.accessioned	2025-08-11T20:58:39Z
dc.date.accessioned	2025-09-09T01:22:27Z
dc.date.available	2025-08-11T20:58:39Z
dc.date.issued	2025-05-16
dc.description.abstract	The proliferation of online social interactions in recent years, with the consequent growth in user-generated content, has brought the escalating issue of toxic language. While automatic machine learning models have been effective in moderating the vast amount of data on online social networks, low-resource languages, such as Brazilian Portuguese, still lack efficient automated moderation tools. We address this gap by creating a novel dataset collected from some of the most popular Brazilian Reddit communities. Using manually labeled data, we propose the use of both open and closed machine learning models trained for the task of toxicity classification. We also explore the use of Large Language Models (LLMs) to assist in generating high-quality synthetic data. Our main findings show that toxic comments in Brazilian communities exhibit distinct linguistic patterns, and that pre-trained language models (such as LLMs and Transformers) are essential for scalable and effective automated toxicity detection. These results highlight the importance of leveraging external knowledge learned by pre-trained models for application in specific tasks. With this research, we aim to contribute to the critical task of automated moderation on online social media, promoting a safer and more inclusive online environment for all.
dc.description.sponsorship	CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico
dc.identifier.uri	https://hdl.handle.net/1843/84324
dc.language	por
dc.publisher	Universidade Federal de Minas Gerais
dc.rights	Acesso Aberto
dc.subject	Computação - Teses
dc.subject	Redes sociais on-line
dc.subject.other	Processamento de Linguagem Natural
dc.subject.other	Toxicidade
dc.subject.other	Conjunto de Dados
dc.subject.other	Redes Sociais Online
dc.subject.other	Reddit
dc.title	Identificação e caracterização de conteúdo tóxico de usuários em comunidades brasileiras no Reddit
dc.type	Dissertação de mestrado
local.contributor.advisor1	Ana Paula Couto da Silva
local.contributor.advisor1Lattes	http://lattes.cnpq.br/2408991231058279
local.contributor.referee1	Mirella Moura Moro
local.contributor.referee1	Aline Marins Paes Carvalho
local.contributor.referee1	Evandro Landulfo Teixeira Paradela Cunha
local.creator.Lattes	http://lattes.cnpq.br/9321510119799007
local.description.resumo	A ausência de dados de qualidade em idiomas com baixa disponibilidade de recursos, como o Português brasileiro, é um desafio significativo para a moderação automatizada de conteúdo online. Nos últimos anos, a proliferação de interações sociais online e o crescimento de conteúdo gerado por usuários trouxeram à tona a questão crescente da linguagem tóxica. Embora modelos automáticos de aprendizado de máquina tenham sido eficazes na moderação do vasto volume de dados nas redes sociais, ferramentas eficientes para esses idiomas ainda são escassas. Primeiramente, tratamos essa lacuna criando um conjunto de dados de alta qualidade, coletado de algumas das comunidades brasileiras mais populares da plataforma Reddit. A partir desse conjunto de dados, propomos o uso de modelos de Aprendizado de Máquina, abertos e fechados, treinados para a tarefa de classificação de toxicidade. Por fim, exploramos o uso de grandes modelos de linguagem (LLMs) para assistir no processo de geração de dados sintéticos de qualidade. Nossos principais achados mostram que comentários tóxicos em comunidades brasileiras apresentam padrões linguı́sticos distintos, e que modelos de linguagem pré-treinados (como LLMs e Transformers) são fundamentais para a classificação automática eficiente e escalável. Esses resultados destacam a importância de incorporar conhecimento externo dos modelos pré-treinados para serem aplicados em tarefas especı́ficas. Com essa pesquisa, buscamos contribuir com a importante tarefa de moderação automática nas redes sociais, promovendo um ambiente online mais seguro e inclusivo para todos.
local.identifier.orcid	https://orcid.org/0009-0000-3440-8037
local.publisher.country	Brasil
local.publisher.department	ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initials	UFMG
local.publisher.program	Programa de Pós-Graduação em Ciência da Computação

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: Dissertacao_Luiz_Quevedo_Lima_2025_final_v2.pdf
Tamanho:: 1.21 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.07 KB
Formato:: Plain Text
Descrição:

Baixar

Coleções

Pós-Graduação em Ciência da Computação - Dissertações