Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/35125
Type: Tese
Title: A new method for ligand-based virtual screening using linear algebra
Other Titles: Um novo método para triagem virtual baseada em ligantes utilizando álgebra linear
Authors: Carmelina Figueiredo Vieira Leite
First Advisor: Marcos Augusto dos Santos
First Co-advisor: Lucianna Helene Silva dos Santos
First Referee: José Miguel Ortega
Second Referee: Anderson Rodrigues dos Santos
Third Referee: Bráulio Roberto Gonçalves Marinho Couto
metadata.dc.contributor.referee4: Carlos Ernesto Ferreira Starling
Abstract: Ligand-based virtual screening of large molecular databases can help reduce costs with experiments by filtering and ranking promising compounds in an initial stage of the drug developing process. However, some ligand-based methods can be ineffective when presented with a high-dimensional number of attributes extracted from an extensive dataset of compounds. Herein, we propose a drug-mining algorithm that can screen ligands and repurpose known drugs from any dataset for any target. The Milk-Way algorithm combines mathematical and regression methods to select promising compounds from a high-dimensional and imbalanced dataset without massive computational power. The significant advantages of Milk-Way algorithm are non-recursive, and the utilization of more features than individuals in the same model. To validate the algorithm, we used literature data of known ligands and compared Milk-Way performance with the methods of Support Vector Machine (SVM) and Random Forest (RF). The chosen datasets of HIV-1 reverse transcriptase receptors showed that our algorithm had better AUC (Area under curve of Receiver Operating Characteristics Curve) than SVM and RF. We also worked with 17 targets from a different database to evaluate the new algorithm, which were consistent with previous, reaching the AUC=1.00. The feature selection done through the Milk-Way algorithm has been improved the values of AUC of itself but, also, the AUC of SVM, and Logistic Regression (LR). Moreover, a prospective screening targeting cyclin-dependent kinase type two (CDK-2) was carried out. The combined use of the algorithm metrics and molecular docking (DOCK6.8) suggested five promising drugs to be repositioned. Three were already mentioned as possible inhibitors of related diseases in the literature. In order to complementary my thesis with a structure-based virtual screening technique, I explored the vector space of protein targets of approved drugs. This strategy results in a suggestion of treatment to COVID-19, the tetrachlorodecaoxide. The product of this dissertation is the Milk-Way algorithm, and two others sub-products: a feature selection procedure and, a mathematical model of protein targets of approved drugs. These products resulted in two deposit patents, one paper published, and a draft of another.
Abstract: A triagem virtual baseada em ligantes de grandes bancos de dados moleculares pode auxiliar a reduzir custos com experimentos, ao filtrar e classificar compostos promissores numa etapa inicial do processo de desenvolvimento de novas drogas. No entanto, alguns métodos baseados em ligantes demonstram ser ineficazes quando aplicados em um grande número de características extraído de um diverso conjunto de dados. Propomos, nesta tese, um algoritmo de mineração de drogas que pode ser usado para selecionar ligantes e reposicionar fármacos já comercializados, a partir de qualquer conjunto de dados para qualquer alvo. O algoritmo Milk-Way combina métodos matemáticos e de regressão a fim de selecionar compostos promissores a partir de um elevado conjunto de dados e desbalanceado, sem o utilizar um grande infra-estrutura computacional. As principais vantagens do algoritmo Milk-Way são: não-recursivo e a utilização de mais características do que indivíduos no mesmo modelo. Para validar o algoritmo, utilizamos dados da literatura de ligantes conhecidos e comparamos o desempenho do Milk-Way com os métodos Máquina de Vetores de Suporte (SVM) e Floresta Aleatória (RF). Os conjuntos de dados escolhidos dos inibidores dos receptores de transcriptase reversa do HIV-1 mostraram que nosso algoritmo teve uma AUC (Área sob a Curva de Característica de Operação do Receptor) mais elevada, em relação ao SVM e RF. Também trabalhamos com 17 alvos de um banco de dados diferente para avaliar o novo algoritmo, que foram consistentes com o anterior, atingindo AUC=1.00. A seleção de características feita através do algoritmo Milk Way melhorou os valores de AUC do próprio, mas, também, a AUC de SVM e a Regressão Logística (LR). Além disso, foi realizada uma triagem virtual prospectiva utilizando a quinase dependente de ciclina tipo dois (CDK-2). O uso combinado das métricas do algoritmo e do atracamento molecular (DOCK6.8) sugeriu cinco fármacos promissores a serem reposicionados, das quais três já foram citados na literatura como possíveis inibidores da CDK-2. A fim de complementar a tese com uma técnica de triagem virtual baseada em estrutura, exploramos o espaço vetorial de alvos protéicos de fármacos aprovados. Esta última estratégia resultou em uma sugestão de tratamento para COVID-19, o tetraclorodecaoxido. O produto desta tese é o algoritmo Milk-Way e dois outros sub-produtos: um procedimento para a seleção de características e um modelo matemático de alvos protéicos de fármacos aprovados. Estes produtos resultaram em dois depósitos de patentes, uma publicação de artigo e um esboço de outro.
Subject: Biologia computacional
Algoritmos
Álgebra linear
Modelos logísticos
Aprendizado de máquina
Medicamentos de referência
Reposicionamento de medicamentos
language: eng
metadata.dc.publisher.country: Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.department: ICB - INSTITUTO DE CIÊNCIAS BIOLOGICAS
metadata.dc.publisher.program: Programa de Pós-Graduação em Bioinformatica
Rights: Acesso Restrito
URI: http://hdl.handle.net/1843/35125
Issue Date: 27-Nov-2020
metadata.dc.description.embargo: 27-Nov-2021
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
tese_Carmelina Figueiredo Vieira Leite_Completa.pdfTese Completa_Carmelina F V Leite6.87 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.