Uma abordagem de detecção automática de vandalismo na Wikipédia utilizando aprendizado associativo ativo

dc.creatorMaria Ines Muianga Sumbana
dc.date.accessioned2019-08-13T04:11:46Z
dc.date.accessioned2025-09-09T01:13:22Z
dc.date.available2019-08-13T04:11:46Z
dc.date.issued2012-06-22
dc.description.abstractWikipedia and other free editing services for collaboratively generated content have quickly grown in popularity. However, the lack of editing control has made these services vulnerable to various types of malicious actions such as vandalism. State-of-the-art vandalism detection methods are based on supervised techniques, and thus rely on the availability of large and representative training collections. Building such collections,often with the help of crowdsourcing, is quite costly, as it has to deal with a natural skew towards very few vandalism examples in the available data and dynamic patterns. Aiming at reducing the cost of building such collections, we present a new active sampling technique coupled with an on-demand associative classification algorithm for Wikipedia vandalism detection. We first show that the associative classification enhanced with a simple undersampling technique for building the training set outperforms state-of-the-art classifiers such as SVMs and kNNs, and is competitive with the best results of the CLEF competition on Wikipedia vandalism detection. Furthermore, by applying the active sampling approach, we are able to reduce the need for training in almost 96% with only a small impact on detection results, thus making our solution very practical for real scenarios.
dc.identifier.urihttps://hdl.handle.net/1843/ESBF-8VMJ98
dc.languagePortuguês
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.subjectRecuperação da informação
dc.subjectComputação
dc.subjectWikipedia
dc.subject.otherCiência da Computação
dc.titleUma abordagem de detecção automática de vandalismo na Wikipédia utilizando aprendizado associativo ativo
dc.typeDissertação de mestrado
local.contributor.advisor-co1Jussara Marques de Almeida
local.contributor.advisor1Marcos Andre Goncalves
local.contributor.referee1Jussara Marques de Almeida
local.contributor.referee1Mirella Moura Moro
local.contributor.referee1Viviane Pereira Moreira
local.description.resumoA Wikipedia e outros serviços gratuitos cujo conteúdo é gerado colaborativamente têm crescido rapidamente em popularidade. No entanto, a falta de controle da edição tem feito com que esses serviços sejam vulneráveis a vários tipos de ações maliciosas como o vandalismo. Métodos de detecção de vandalismo de estado-de-arte são baseados em técnicas supervisionadas, e portanto, dependem de coleções de treinamento geralmente grandes e representativas. A construção de tais coleções depende, muitas vezes, de um esforço conjunto (crowdsourcing), sendo ssim caras de construir. Mais ainda, no caso específico de vandalismo, as coleções disponíveis tendem a ser muito desbalanceadas com muito poucos exemplos de vandalismo, o que afeta o processo da classificação. Visando diminuir o custo da construção das coleções representativas para esse problema, apresentamos uma nova técnica de seleção ativa juntamente com um algoritmo de classificação associativa sob-demanda para a detecção de vandalismo na Wikipédia. Primeiro mostramos que a classificação associativa reforçada por uma técnica simples de balanceamento para a construção do conjunto de treinamento supera classificadores de estado-de-arte como SVM e kNN, e é competitivo com os melhores resultados da competição CLEF em detecção de vandalismo na Wikipedia. Além disso, através da aplicação da abordagem de seleção ativa, fomos capazes de reduzir a necessidade de treinamento em quase 96% com apenas um pequeno impacto sobre os resultados dadetecção, tornando assim a nossa solução muito prática para cenários reais.
local.publisher.initialsUFMG

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
mariain_s.pdf
Tamanho:
1.25 MB
Formato:
Adobe Portable Document Format