Identificação e caracterização de conteúdo tóxico de usuários em comunidades brasileiras no Reddit

dc.creatorLuiz Henrique Quevedo Lima
dc.date.accessioned2025-08-11T20:58:39Z
dc.date.accessioned2025-09-09T01:22:27Z
dc.date.available2025-08-11T20:58:39Z
dc.date.issued2025-05-16
dc.description.abstractThe proliferation of online social interactions in recent years, with the consequent growth in user-generated content, has brought the escalating issue of toxic language. While automatic machine learning models have been effective in moderating the vast amount of data on online social networks, low-resource languages, such as Brazilian Portuguese, still lack efficient automated moderation tools. We address this gap by creating a novel dataset collected from some of the most popular Brazilian Reddit communities. Using manually labeled data, we propose the use of both open and closed machine learning models trained for the task of toxicity classification. We also explore the use of Large Language Models (LLMs) to assist in generating high-quality synthetic data. Our main findings show that toxic comments in Brazilian communities exhibit distinct linguistic patterns, and that pre-trained language models (such as LLMs and Transformers) are essential for scalable and effective automated toxicity detection. These results highlight the importance of leveraging external knowledge learned by pre-trained models for application in specific tasks. With this research, we aim to contribute to the critical task of automated moderation on online social media, promoting a safer and more inclusive online environment for all.
dc.description.sponsorshipCNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico
dc.identifier.urihttps://hdl.handle.net/1843/84324
dc.languagepor
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.subjectComputação - Teses
dc.subjectRedes sociais on-line
dc.subject.otherProcessamento de Linguagem Natural
dc.subject.otherToxicidade
dc.subject.otherConjunto de Dados
dc.subject.otherRedes Sociais Online
dc.subject.otherReddit
dc.titleIdentificação e caracterização de conteúdo tóxico de usuários em comunidades brasileiras no Reddit
dc.typeDissertação de mestrado
local.contributor.advisor1Ana Paula Couto da Silva
local.contributor.advisor1Latteshttp://lattes.cnpq.br/2408991231058279
local.contributor.referee1Mirella Moura Moro
local.contributor.referee1Aline Marins Paes Carvalho
local.contributor.referee1Evandro Landulfo Teixeira Paradela Cunha
local.creator.Latteshttp://lattes.cnpq.br/9321510119799007
local.description.resumoA ausência de dados de qualidade em idiomas com baixa disponibilidade de recursos, como o Português brasileiro, é um desafio significativo para a moderação automatizada de conteúdo online. Nos últimos anos, a proliferação de interações sociais online e o crescimento de conteúdo gerado por usuários trouxeram à tona a questão crescente da linguagem tóxica. Embora modelos automáticos de aprendizado de máquina tenham sido eficazes na moderação do vasto volume de dados nas redes sociais, ferramentas eficientes para esses idiomas ainda são escassas. Primeiramente, tratamos essa lacuna criando um conjunto de dados de alta qualidade, coletado de algumas das comunidades brasileiras mais populares da plataforma Reddit. A partir desse conjunto de dados, propomos o uso de modelos de Aprendizado de Máquina, abertos e fechados, treinados para a tarefa de classificação de toxicidade. Por fim, exploramos o uso de grandes modelos de linguagem (LLMs) para assistir no processo de geração de dados sintéticos de qualidade. Nossos principais achados mostram que comentários tóxicos em comunidades brasileiras apresentam padrões linguı́sticos distintos, e que modelos de linguagem pré-treinados (como LLMs e Transformers) são fundamentais para a classificação automática eficiente e escalável. Esses resultados destacam a importância de incorporar conhecimento externo dos modelos pré-treinados para serem aplicados em tarefas especı́ficas. Com essa pesquisa, buscamos contribuir com a importante tarefa de moderação automática nas redes sociais, promovendo um ambiente online mais seguro e inclusivo para todos.
local.identifier.orcidhttps://orcid.org/0009-0000-3440-8037
local.publisher.countryBrasil
local.publisher.departmentICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Ciência da Computação

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Dissertacao_Luiz_Quevedo_Lima_2025_final_v2.pdf
Tamanho:
1.21 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Plain Text
Descrição: