Towards misinformation span detection
Carregando...
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Dissertação de mestrado
Título alternativo
Primeiro orientador
Membros da banca
Pedro Olmo Stancioli Vaz De Melo
Flávio Vinícius Diniz de Figueiredo
Savvas Zannettou
Flávio Vinícius Diniz de Figueiredo
Savvas Zannettou
Resumo
Online misinformation is one of the most challenging modern issues, yielding severe consequences, including political polarization, attacks on democracy, and public health risks. Misinformation manifests in any platform with a large user base, including online social networks and messaging apps. It permeates all media and content forms, including images, text, audio, and video. Distinctly, video-based misinformation represents a multifaceted challenge for fact-checkers, given the ease with which individuals can record and upload videos on various video-sharing platforms. Previous research efforts investigated detecting video-based misinformation, focusing on whether a video shares misinformation or not on a video level. While this approach is useful, it only provides a limited and non-easily interpretable view of the problem given that it does not provide an additional context of when misinformation occurs within videos and what content (i.e., claims) are responsible for the video's misinformative nature. In this work, we attempt to bridge this research gap by proposing a novel approach for misinformation detection on videos, focusing on identifying the span of videos that are responsible for the video's misinformation claim, a task we frame as misinformation span detection. We present two new datasets for this task, both containing false claims and the video moment in which they appear. We transcribe each video's audio to text, identifying the video segment in which the misinformation claims appear, resulting in two datasets of more than 600 videos with more than 2,300 segments containing annotated fact-checked claims. Then, we employ classifiers built with state-of-the-art language models, and our results show that we can identify in which part of a video there is misinformation with an F1 score of 0.68. Additionally, we also point to new directions for misinformation span detection using in-context learning. We hope our work can assist fact-checkers and the development of automated misinformation detection and robust automatic moderation tools that align with the evolving needs of digital platforms.
Abstract
A desinformação online é um dos problemas mais desafiadores da modernidade, que apresenta consequências severas, incluindo polarização política, ataques à democracia e riscos à saúde pública. A desinformação se manifesta em qualquer plataforma com uma grande base de usuários, incluindo redes sociais e aplicativos de mensagens. Ela permeia todas as formas de mídia e conteúdo, incluindo imagens, texto, áudio e vídeo. Em especial, a desinformação em vídeo representa um desafio multifacetado para os verificadores de fatos, dado a facilidade com que quaisquer indivíduos podem gravar e distribuir vídeos em várias plataformas de compartilhamento de vídeos. Trabalhos anteriores investigaram a detecção de desinformação baseada em vídeo, focando em se um vídeo compartilha desinformação ou não a nível de vídeo. Embora essa abordagem seja útil, ela fornece apenas uma visão limitada e não facilmente interpretável do problema, dado que não fornece um contexto adicional de quando a desinformação ocorre dentro dos vídeos e qual conteúdo é responsável por tornar o vídeo desinformativo. Neste trabalho, tentamos preencher essa lacuna de pesquisa propondo uma nova abordagem para a detecção de desinformação em vídeos, focando na identificação da seção dos vídeos que contêm desinformação, uma tarefa que enquadramos como misinformation span detection. Apresentamos dois novos conjuntos de dados para esta tarefa, ambos contendo alegações falsas e o momento do vídeo em que elas aparecem. Transcrevemos o áudio de cada vídeo para texto, identificando o segmento do vídeo em que a desinformação aparece, resultando em dois conjuntos de dados com mais de 600 vídeos com mais de 2.400 segmentos contendo alegações verificadas e anotadas. Em seguida, empregamos classificadores construídos com modelos de linguagem de última geração, e nossos resultados mostram que podemos identificar em qual parte de um vídeo há desinformação com uma pontuação F1 de 0,68. Além disso, também apontamos novas direções para a tarefa de misinformation span detection usando in-context learning. Esperamos que nosso trabalho possa auxiliar os verificadores de fatos, além do desenvolvimento de ferramentas automatizadas de detecção de desinformação e moderação automática que estejam alinhadas com as necessidades em evolução das plataformas digitais.
Assunto
Computação – Teses, Redes sociais on-line – Teses, Mídia social – Teses, Desinformação – Teses, Processamento da linguagem natural (Computação)
Palavras-chave
Misinformation, Natural language processing