Análise e modelagem do comportamento de SPAMMERS e dos usuários legítimos em redes de email

Luiz Henique Gomes

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/RVMR-6QGJW5

Type:	Tese de Doutorado
Title:	Análise e modelagem do comportamento de SPAMMERS e dos usuários legítimos em redes de email
Authors:	Luiz Henique Gomes
First Advisor:	Virgilio Augusto Fernandes Almeida
First Co-advisor:	Jussara Marques de Almeida
First Referee:	Luis Bettencourt
Second Referee:	Valmir Carneiro Barbosa
Third Referee:	Eduardo Sany Laber
metadata.dc.contributor.referee4:	Wagner Meira Junior
Abstract:	E-mail é um meio de comunicação cada vez mais importante e largamente utilizado para interação entre indivíduos e/ou organizações, facilitando o contato entre indivíduos e possibilitando melhoria da produtividade nas organizações. Entretanto, o uso de ferramentas automáticas para envio de e-mails não autorizados, conhecidos como spam, vem, dia-a-dia, enfraquecendo a atratividade deste meio de comunicação. Até hoje, a maioria da atenção dedicada à detecção de spam focalizou no corpo do e-mail ou nos endereços ou domínios associados aos remetentes de spam. Neste trabalho, nós propusemos uma forma nova de tratar o problema causado por spam. Nosso objetivo é desenvolver uma compreensão profunda das características fundamentais do tráfego spam, do comportamento dos spammers e dos relacionamentos entre spammers e usuários legítimos em redes de e-mail. Esperamos que tal conhecimento possa ser usado, no futuro, como base para projetos de técnicas mais eficazes para detectar e combater spam. Primeiro, nós apresentamos uma caracterização extensiva de uma carga e-mails contendo spam e e-mails legítimos, que visa identificar e quantificar as características fundamentais que distinguem o tráfego spam do de e-mails legítimos, avaliando o impacto do tráfego spam no agregado e fornecendo dados para criar geradores de tráfegos sintéticos. Em seguida, nós apresentamos uma análise teórica de um modelo de redes de e-mail baseado em teoria dos grafos, mostrando que existem diferenças fundamentais entre as relações desenvolvidas por spammers e seus pares e as relações desenvolvidas por remetentes e destinatários de e-mails legítimos. Em terceiro lugar, nós usamos as propriedades reveladas acima, do comportamento dos spammers e dos usuários legítimos, a fim de propor dois novos algoritmos para detecção de spam. Os algoritmos propostos utilizam as propriedades estruturais dos relacionamentos entre remetentes e destinatários de e-mails como base para a detecção de spam. Nossos algoritmos se propõem a corrigir classificações errôneas de um algoritmo auxiliar usado para detecção de spam. A precisão dessas classificações foi avaliada utilizando duas carga de dados, uma real e outra sintética. Finalmente, como a maioria do tráfego de e-mails, representada pelo tráfego do spam, exibe relações oportunísticas ao invés de relações sociais comuns, nós usamos este tráfego para quantificar as diferenças entre relações sociais e anti-sociais (representadas aqui pelo comportamento dos spammers) em redes de e-mail. Embora nenhuma métrica de tráfego ou comportamental estudada possa diferenciar inequivocamente e-mails legítimos de spam, a combinação de diversas delas mostra um retrato claro do processo por meio do qual os e-mails legítimos e spam são criados. Por esta razão, supomos, o conhecimento gerado poderá ser usado para aumentar a eficácia, como nos algoritmos propostos, dos mecanismos de detecção de e-mail ilegítimos, assim como para melhor compreender o comportamento malicioso em redes de comunicações.
Abstract:	Email is an increasingly important and ubiquitous mean of communication, both facilitating contact between individuals and enabling rises in the productivity of organizations. However, the relentless rising of automatic unauthorized emails, also known as spam, is eroding away much of the attractiveness of email communication. Most of the attention dedicated to spam detection has focused on the content of the emails or on the addresses or domains associated with spam senders. This thesis takes an innovative approach towards addressing the problems caused by spam. Our goal is to develop a deep understanding of the fundamental characteristics of spam traffic, spammers' behavior and the way spammers and non-spam (i.e., legitimate) users develop their relations in email networks, in hoping that such knowledge can be used, in the future, to drive the design of more effective techniques for detecting and combating spams. First we present an extensive characterization of a spam-infected email workload, which aims at identifying and quantifying the characteristics that significantly distinguish spam from legitimate traffic, assessing the impact of spam on the aggregate traffic and providing data for creating synthetic workload models. Next, we present a comprehensive graph theoretical analysis of email traffic that captures the fundamental characteristics of relations among spammers and their peers, which is very different from the normal mutual relations between senders and recipients of legitimate email. Third, we use the above properties of spammers and legitimate users behavior, in order to propose two new spam detection algorithms that use structural relationships between senders and recipients of email as the basis for spam detection. Our algorithms are used to correct misclassification from an auxiliary algorithm and its classification precision is evaluated using an actual and a synthetic workloads. Finally, as the majority of email traffic, represented by spam traffic, exhibits opportunistic, rather than symbiotic social relations, we use this traffic to quantify the differences between social and antisocial (here represented by spammers behavior) behaviors in networks of communication. Although no single behavioral or traffic metric studied can unequivocally differentiate legitimate emails from spam, the combination of several of them paint a clear picture of the processes, whereby legitimate and spam email are created. For this reason, we suppose, they can be used to augment the effectiveness, as our proposed algorithms do, of mechanisms to detect illegitimate emails as well as to better understand malicious behavior in network of communications.
Subject:	Mensagens eletrônicas não solicitadas Correio eletrônico Computação Redes de computação Medidas de segurança
language:	Português
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
Rights:	Acesso Aberto
URI:	http://hdl.handle.net/1843/RVMR-6QGJW5
Issue Date:	5-May-2006
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
luiz_henrique_gomes.pdf		2.28 MB	Adobe PDF	View/Open

Show full item record