Aplicação de técnicas de aprendizado de máquina para a predição de mutagenicidade in vitro

Carregando...
Imagem de Miniatura

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Minas Gerais

Descrição

Tipo

Monografia de especialização

Título alternativo

Application of machine learning techniques for the prediction of in vitro mutagenicity

Primeiro orientador

Membros da banca

Marcos Oliveira Prates

Resumo

No contexto da indústria farmacêutica, a toxicidade é uma das principais causas de fracasso de novos medicamentos, tornando essencial o desenvolvimento de métodos alternativos mais eficientes. A toxicologia computacional surge como uma solução promissora, utilizando ferramentas in silico, como as Relações Quantitativas entre Estrutura e Atividade (QSAR) e as Relações Estrutura-Atividade (SAR), para prever propriedades toxicológicas com base na estrutura química dos compostos. O presente estudo tem como objetivo desenvolver um modelo preditivo de mutagenicidade in vitro utilizando aprendizado de máquina, explorando descritores moleculares e métricas de desempenho para aumentar a confiabilidade das predições. Foram avaliados os modelos Random Forest (RF), XGBoost e CART em três abordagens distintas para a definição do espaço químico. Na primeira abordagem, que considerou todos os dados do banco (6.467 moléculas), o XGBoost apresentou desempenho equilibrado (ROC de 0,8518, sensibilidade de 0,7765 e F1-score de 0,7624), enquanto o CART teve o menor desempenho. Na segunda abordagem, baseada na técnica de agrupamento e definição do espaço químico como o cluster mais próximo, o RF obteve melhora na acurácia, mas com redução na sensibilidade. Já a terceira abordagem, que utilizou distância euclidiana entre moléculas, o RF atingiu a maior sensibilidade (0,8889) e ROC (0,8649), tornando-se a melhor opção para evitar falsos negativos. Os resultados indicam que os modelos RF da terceira abordagem e XGBoost da primeira abordagem são os mais adequados para a predição de mutagenicidade, reduzindo significativamente a ocorrência de falsos negativos e custo computacional. Além disso, durante aplicação a moléculas externas à modelagem, o modelo RF obteve 100% de acerto, enquanto o XGBoost, com apenas um erro, destaca-se como alternativa mais rápida. Como perspectiva futura, propõe-se uma combinação dos modelos XGBoost e RF para equilibrar tempo e desempenho, além da incorporação de um terceiro método, como o CatBoost, para fortalecer a base de evidências.

Abstract

In the pharmaceutical industry, toxicity is one of the main causes of failure for new drugs, making the development of more efficient alternative methods essential. Computational toxicology emerges as a promising solution, utilizing in silico tools such as Quantitative Structure-Activity Relationships (QSAR) and Structure-Activity Relationships (SAR) to predict toxicological properties based on the chemical structure of compounds. This study aims to develop an in vitro mutagenicity predictive model using machine learning, exploring molecular descriptors and performance metrics to enhance the reliability of predictions. The models Random Forest (RF), XGBoost, and CART were evaluated in three distinct approaches for defining the chemical space. In the first approach, which considered all data from the database (6,467 molecules), XGBoost showed balanced performance (ROC of 0.8518, sensitivity of 0.7765, and F1-score of 0.7624), while CART had the lowest performance. In the second approach, based on clustering techniques and chemical space as the nearest cluster, RF improved accuracy but with a reduction in sensitivity. In the third approach, which used the Euclidean distance between molecules, RF achieved the highest sensitivity (0.8889) and ROC (0.8649), making it the best option for avoiding false negatives. The results indicate that the RF model from the third approach and the XGBoost model from the first approach are the most suitable for mutagenicity prediction, significantly reducing the occurrence of false negatives and low computational demand. Additionally, when applied to external molecules, the RF model achieved 100% accuracy, while XGBoost, with only one error, stands out as a faster alternative. As a future perspective, a combination of XGBoost and RF models is proposed to balance computational time and performance, along with the incorporation of a third method, as the CatBoost algorithm, to strengthen the weight of evidence.

Assunto

EstatÌstica, Análise por conglomerados, Aprendizado do computador, Indústria farmacêutica - Toxicidade, Toxicologia – Modelos computacionais

Palavras-chave

mutagenicidade, toxicologia computacional, análise de agrupamentos, análise de componentes principais, aprendizado de máquina

Citação

Endereço externo

Avaliação

Revisão

Suplementado Por

Referenciado Por

Licença Creative Commons

Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso Aberto