Categorização de malware em binários utilizando técnicas de NLP e deep learning
| dc.creator | Bruce William Percilio Azevedo | |
| dc.date.accessioned | 2025-03-24T16:52:16Z | |
| dc.date.accessioned | 2025-09-09T01:11:25Z | |
| dc.date.available | 2025-03-24T16:52:16Z | |
| dc.date.issued | 2025-01-22 | |
| dc.description.abstract | The use of technology has been steadily increasing over the years, and its potential to expedite tasks in our current era is proving to be significant. Individuals, businesses, and even nations have experienced a transformation in their daily activities, often leading to improvements. However, this transformation comes with a downside: dependency. The lack of technologies for communication, financial transactions, or the provision of essential resources can result in substantial financial losses or even loss of life. One of the key factors driving this technological shift is software. Currently, the most widely used operating system is Windows, which supports software in the PE32 format. Unfortunately, due to its popularity, this format is often exploited by malicious users to create harmful software. According to VirusTotal, PE32 remains the primary format for such malicious applications today. Currently, there are several techniques for analyzing malware in the PE32 format, which can be categorized into two types: static and dynamic analysis. Static analysis involves examining the characteristics of the binary without executing it. In contrast, dynamic analysis requires the execution of the binary while extracting information during its runtime. Both analyses are important, but in modern automated environments, speed is crucial. This project proposes using natural language processing (NLP) and deep learning techniques to analyze malware code from binaries in PE32 format, which are extracted through disassembly methods. The goal is to categorize malware, allowing known threats to be directed toward more thorough analyses. This approach aims to create a malware categorization structure that can enhance situational awareness and support decision-making. Word2Vec is a natural language processing (NLP) algorithm that converts words into numerical representations based on the patterns in which they appear. This technique can be used to classify malware based on its assembly code. For this purpose, Word2Vec will be trained using functions extracted from binaries in PE32 format. The resulting output will then be input to a Long Short-Term Memory (LSTM) recurrent neural network model, which will identify patterns and classify the malware effectively through machine learning techniques. | |
| dc.identifier.uri | https://hdl.handle.net/1843/80866 | |
| dc.language | por | |
| dc.publisher | Universidade Federal de Minas Gerais | |
| dc.rights | Acesso Aberto | |
| dc.subject | Estatística | |
| dc.subject | Probabilidade – Aprendizado de computador | |
| dc.subject | Aprendizado profundo | |
| dc.subject | Redes neurais (Computação) | |
| dc.subject | Processamento de Linguagem Natural (Computação) | |
| dc.subject.other | análise de malware | |
| dc.subject.other | binário | |
| dc.subject.other | redes neurais | |
| dc.subject.other | aprendizado profundo | |
| dc.title | Categorização de malware em binários utilizando técnicas de NLP e deep learning | |
| dc.title.alternative | Malware categorization in binaries using NLP and deep learning techniques | |
| dc.type | Monografia de especialização | |
| local.contributor.advisor1 | Marcos Antônio da Cunha Santos | |
| local.contributor.advisor1Lattes | http://lattes.cnpq.br/7054616839592595 | |
| local.contributor.referee1 | Luiz Henrique Duczmal | |
| local.contributor.referee1 | Frederico Rodrigues Borges da Cruz | |
| local.creator.Lattes | http://lattes.cnpq.br/6835726505907971 | |
| local.description.resumo | O uso da tecnologia vem aumentando com o passar dos anos, seu potencial para agilizar tarefas inerentes ao mundo moderno vem se mostrando imenso. Pessoas, empresas e até nações veem tendo os modos de realizar atividades corriqueiras transformados, melhorando sua execução. Porém o custo dessa transformação é a dependência. A ausência de tecnologias de comunicação, movimentação financeira ou fornecimento de recursos básicos, pode acarretar em perdas monetárias incalculáveis ou até mesmo em vidas. Um dos principais recursos que pavimentaram essa guinada tecnológica é o software. O sistema operacional mais popular do mundo no momento, o Windows, suporta softwares no formato PE32. Porém dado a dimensão desta adoção, usuários mal intencionados se utilizam deste formato para escrever softwares maliciosos, sendo o principal formato utilizado atualmente, segundo o site de análises virustotal. Existem diversas técnicas de análise de malware em formato PE32 atualmente, dividas em estático e dinâmico. No estático a análise se baseia em características do binário sem realizar sua execução. Enquanto que na análise dinâmica o binário é executado enquanto são extraídas informações durante o período de execução. Ambas as análises são importantes, porém em ambientes modernos e automatizados, a velocidade é primordial. Para isso esse projeto propõe a utilização de métodos de Processamento de Linguagem Natural (PLN) e Deep Learning, para analisar pedaços do código de malware de binários no formato PE32 extraídos através de técnicas de desassembly, visando categorizar malwares e assim direcionar malwares conhecidos para análises especificas e que tomam mais tempo, visando criar uma estrutura de categorização de malware que pode servir de base para consciência situacional e tomada de decisões. O Word2vec é um algoritmo que converte palavras em números levando em consideração o padrão que elas aparecem. Deste modo é possível classificar um malware a partir de partes de seu código extraídos direto do binário. Neste trabalho o Word2vec será alimentado com as funções/métodos extraídas. Sua saída irá alimentar um modelo rede neural recorrente do tipo Long- Short Term Memory (LSTM) que irá mapear os padrões, e usando as técnicas de aprendizado de máquina, realizar uma classificação do malware. | |
| local.publisher.country | Brasil | |
| local.publisher.department | ICX - DEPARTAMENTO DE ESTATÍSTICA | |
| local.publisher.initials | UFMG | |
| local.publisher.program | Programa de Pós-Graduação em Estatística |