Applications of machine learning to reverse vaccinology: prediction of vaccine candidates based on parasite genomic data

Igor Kelvyn Cavalcante Lobo

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/57931

Type:	Tese
Title:	Applications of machine learning to reverse vaccinology: prediction of vaccine candidates based on parasite genomic data
Other Titles:	Aplicações de aprendizado de máquina na vacinologia reversa: predição de candidatos vacinais baseada em dados genômicos de parasitas
Authors:	Igor Kelvyn Cavalcante Lobo
First Advisor:	Francisco Pereira Lobo
First Referee:	Glória Regina Franco
Second Referee:	Frederico Marianetti Soriani
Third Referee:	Siomar de Castro Soares
metadata.dc.contributor.referee4:	Tetsu Sakamoto
Abstract:	In the data-driven science era, with a wealth of genomes currently available, one type of post-genomic analysis is the detection of protective antigens (PAgs), but initiatives to organize PAgs as they emerge from the literature are scarce. Detecting PAgs is the main purpose of a research field named Reverse Vaccinology (RV). There are several RV computational tools. However, those programs present some limitations. Thus, here we present PADA-ONE, a new database to host PAgs and other immunologically relevant proteins (IRPs), as well as associated metadata. Additionally, we introduce MARVL, a pipeline to train an ensemble of models to predict PAgs for bacterial species and other pathogens. PADA-ONE is composed of 1) a predictive component, able to assign probabilities to paper titles regarding their potential to describe PAgs; 2) a back-end MySQL database; and 3) a front-end interface. Our predictive component was trained using titles of papers presenting PAgs that were manually curated by several independent initiatives. As negative instances, we used paper titles from the Immune Epitope Database (IEDB). Then, we deployed the model on a set of approximately 32 million PubMed entries. For each entry, we also retrieved associated metadata, when available. PADA-ONE contains more than 500,000 entries and we have already found a growing set of IRPs, comprising 30 PAgs, 18 attenuators, 10 non-PAgs, and two boosters. Therefore, PADA-ONE provides an easy way to access an expanding source of IRPs, including the already invaluable data from existing databases. Once PADA-ONE screening has resulted in new bacterial PAgs and non-PAgs, we then used those proteins to 1) perform an analysis of dissimilarity as a proxy to distinguish between vaccines and non-vaccines; 2) and validate MARVL. Firstly, we trained MARVL models using bacterial protein sequences from Protegen as positive instances. As a negative class, we used dissimilar proteins, adding new aspects to the process, such as similarity-aware data splitting in training, feature engineering, and one-class classification. We found that exclusively using dissimilarity as a proxy to distinguish between vaccines and non-vaccines to create a negative class is not supported by evidence. However, this is not decisive evidence, but only an indication of being a poor strategy. Once fitted, we deployed our models on our testing dataset and even when isolatedly tested, some of them presented robust performance. Taken together in an ensemble, MARVL was compared with state-of-the-art tools and was able to outperform them for most performance metrics, when validated using the sequences resulting from PADA-ONE screening. Therefore, PADA-ONE and MARVL are novelties that contribute to the scientific community in terms of organizing and systematizing the search for new IRPs and metadata associated, as well as predicting PAgs and non-PAgs better than existing tools, respectively.
Abstract:	Na era da ciȇncia de dados, com a abundȃncia de genomas atualmente disponíveis, um tipo de análise pós-genômica é a detecção de antígenos protetivos (AgPs). Porém, iniciativas para organizar AgPs à medida que emergem da literatura são escassas. Detectar AgPs é o principal objetivo de um campo de pesquisa chamado Vacinologia Reversa (VR). Existem várias ferramentas computacionais para VR. Entretanto, estes programas apresentam algumas limitações. Assim, aqui apresentamos PADA-ONE, um novo banco de dados para hospedar AgPs e demais proteínas imunologicamente relevantes (PIRs), bem como metadados associados. Adicionalmente, apresentamos MARVL, uma pipeline para treinar um ensemble de modelos para predizer AgPs em espécies bacterianas e outros patógenos. PADA-ONE é composto por 1) um componente preditivo, apto a atribuir probabilidades a títulos de artigos quanto a seu potencial para descrever AgPs; 2) um banco de dados MySQL back-end; 3) e uma interface front-end. Nosso componente preditivo foi treinado usando títulos de artigos apresentando AgPs, que foram manualmente curados por várias iniciativas independentes. Como exemplos negativos, usamos títulos de artigos do Immune Epitope Database (IEDB). Então, aplicamos o modelo em um conjunto de, aproximadamente, 32 milhões de entradas do PubMed. Para cada entrada, recuperamos também metadados associados, quando disponíveis. PADA-ONE contém mais de 500.000 entradas e já encontramos um crescente grupo de PIRs, compreendendo 30 AgPs, 18 atenuadores, 10 não-AgPs e 2 boosters. Portanto, PADA-ONE fornece uma maneira fácil de acessar uma crescente fonte de PIRs, incluindo dados existentes de outros bancos de dados. Uma vez que as buscas com PADA-ONE resultaram em novos AgPs e não-AgPs, usamos então estas proteínas para 1) analisar dissimilaridade como indicador para distinguir vacinas de não-vacinas; 2) e validar o MARVL. Primeiramente, treinamos os modelos MARVL utilizando sequências proteicas bacterianas do Protegen como exemplos positivos. Como classe negativa, utilizamos proteínas dissimilares, adicionando novos aspectos ao processo, como splitting de sequências baseado em similaridade durante o treinamento, engenharia de atributos e classificação de uma classe. Observamos que usar exclusivamente dissimilaridade como indicador para distinguir vacinas de não-vacinas para criar uma classe negativa de treinamento não apresenta suporte por evidência. Entretanto, isto não é evidência decisiva, somente uma indicação de ser uma estratégia ineficiente. Uma vez treinados, aplicamos nossos modelos em nosso conjunto de teste e mesmo quando testados isoladamente, alguns deles apresentaram performance robusta. Quando unidos em um ensemble, MARVL foi comparado com programas estado-da-arte e se mostrou capaz de superá-los na maioria das métricas de performance, quando validado utilizando sequências resultantes das buscas com PADA-ONE. Portanto, PADA-ONE e MARVL são novidades que contribuem com a comunidade científica em termos de organizar e sistematizar as buscas por novas PIRs e metadados associados, bem como predizer AgPs e não-AgPs melhor do que ferramentas existentes, respectivamente.
Subject:	Genética Genoma Antígenos Vacinologia Aprendizado de Máquina
language:	eng
metadata.dc.publisher.country:	Brasil
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
metadata.dc.publisher.department:	ICB - INSTITUTO DE CIÊNCIAS BIOLOGICAS
metadata.dc.publisher.program:	Programa de Pós-Graduação em Genética
Rights:	Acesso Restrito
metadata.dc.rights.uri:	http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
URI:	http://hdl.handle.net/1843/57931
Issue Date:	5-Jul-2023
metadata.dc.description.embargo:	5-Jul-2025
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
Applications of machine learning to reverse vaccinology: prediction of vaccine candidates based on parasite genomic data .pdf ???org.dspace.app.webui.jsptag.ItemTag.restrictionUntil??? 2025-07-05		8.56 MB	Adobe PDF	View/Open Request a copy

Show full item record

This item is licensed under a Creative Commons License