Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/57931
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Francisco Pereira Lobopt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/9614758933055047pt_BR
dc.contributor.referee1Glória Regina Francopt_BR
dc.contributor.referee2Frederico Marianetti Sorianipt_BR
dc.contributor.referee3Siomar de Castro Soarespt_BR
dc.contributor.referee4Tetsu Sakamotopt_BR
dc.creatorIgor Kelvyn Cavalcante Lobopt_BR
dc.creator.Latteshttps://lattes.cnpq.br/0349785333619827pt_BR
dc.date.accessioned2023-08-18T17:22:01Z-
dc.date.available2023-08-18T17:22:01Z-
dc.date.issued2023-07-05-
dc.identifier.urihttp://hdl.handle.net/1843/57931-
dc.description.abstractNa era da ciȇncia de dados, com a abundȃncia de genomas atualmente disponíveis, um tipo de análise pós-genômica é a detecção de antígenos protetivos (AgPs). Porém, iniciativas para organizar AgPs à medida que emergem da literatura são escassas. Detectar AgPs é o principal objetivo de um campo de pesquisa chamado Vacinologia Reversa (VR). Existem várias ferramentas computacionais para VR. Entretanto, estes programas apresentam algumas limitações. Assim, aqui apresentamos PADA-ONE, um novo banco de dados para hospedar AgPs e demais proteínas imunologicamente relevantes (PIRs), bem como metadados associados. Adicionalmente, apresentamos MARVL, uma pipeline para treinar um ensemble de modelos para predizer AgPs em espécies bacterianas e outros patógenos. PADA-ONE é composto por 1) um componente preditivo, apto a atribuir probabilidades a títulos de artigos quanto a seu potencial para descrever AgPs; 2) um banco de dados MySQL back-end; 3) e uma interface front-end. Nosso componente preditivo foi treinado usando títulos de artigos apresentando AgPs, que foram manualmente curados por várias iniciativas independentes. Como exemplos negativos, usamos títulos de artigos do Immune Epitope Database (IEDB). Então, aplicamos o modelo em um conjunto de, aproximadamente, 32 milhões de entradas do PubMed. Para cada entrada, recuperamos também metadados associados, quando disponíveis. PADA-ONE contém mais de 500.000 entradas e já encontramos um crescente grupo de PIRs, compreendendo 30 AgPs, 18 atenuadores, 10 não-AgPs e 2 boosters. Portanto, PADA-ONE fornece uma maneira fácil de acessar uma crescente fonte de PIRs, incluindo dados existentes de outros bancos de dados. Uma vez que as buscas com PADA-ONE resultaram em novos AgPs e não-AgPs, usamos então estas proteínas para 1) analisar dissimilaridade como indicador para distinguir vacinas de não-vacinas; 2) e validar o MARVL. Primeiramente, treinamos os modelos MARVL utilizando sequências proteicas bacterianas do Protegen como exemplos positivos. Como classe negativa, utilizamos proteínas dissimilares, adicionando novos aspectos ao processo, como splitting de sequências baseado em similaridade durante o treinamento, engenharia de atributos e classificação de uma classe. Observamos que usar exclusivamente dissimilaridade como indicador para distinguir vacinas de não-vacinas para criar uma classe negativa de treinamento não apresenta suporte por evidência. Entretanto, isto não é evidência decisiva, somente uma indicação de ser uma estratégia ineficiente. Uma vez treinados, aplicamos nossos modelos em nosso conjunto de teste e mesmo quando testados isoladamente, alguns deles apresentaram performance robusta. Quando unidos em um ensemble, MARVL foi comparado com programas estado-da-arte e se mostrou capaz de superá-los na maioria das métricas de performance, quando validado utilizando sequências resultantes das buscas com PADA-ONE. Portanto, PADA-ONE e MARVL são novidades que contribuem com a comunidade científica em termos de organizar e sistematizar as buscas por novas PIRs e metadados associados, bem como predizer AgPs e não-AgPs melhor do que ferramentas existentes, respectivamente.pt_BR
dc.description.resumoIn the data-driven science era, with a wealth of genomes currently available, one type of post-genomic analysis is the detection of protective antigens (PAgs), but initiatives to organize PAgs as they emerge from the literature are scarce. Detecting PAgs is the main purpose of a research field named Reverse Vaccinology (RV). There are several RV computational tools. However, those programs present some limitations. Thus, here we present PADA-ONE, a new database to host PAgs and other immunologically relevant proteins (IRPs), as well as associated metadata. Additionally, we introduce MARVL, a pipeline to train an ensemble of models to predict PAgs for bacterial species and other pathogens. PADA-ONE is composed of 1) a predictive component, able to assign probabilities to paper titles regarding their potential to describe PAgs; 2) a back-end MySQL database; and 3) a front-end interface. Our predictive component was trained using titles of papers presenting PAgs that were manually curated by several independent initiatives. As negative instances, we used paper titles from the Immune Epitope Database (IEDB). Then, we deployed the model on a set of approximately 32 million PubMed entries. For each entry, we also retrieved associated metadata, when available. PADA-ONE contains more than 500,000 entries and we have already found a growing set of IRPs, comprising 30 PAgs, 18 attenuators, 10 non-PAgs, and two boosters. Therefore, PADA-ONE provides an easy way to access an expanding source of IRPs, including the already invaluable data from existing databases. Once PADA-ONE screening has resulted in new bacterial PAgs and non-PAgs, we then used those proteins to 1) perform an analysis of dissimilarity as a proxy to distinguish between vaccines and non-vaccines; 2) and validate MARVL. Firstly, we trained MARVL models using bacterial protein sequences from Protegen as positive instances. As a negative class, we used dissimilar proteins, adding new aspects to the process, such as similarity-aware data splitting in training, feature engineering, and one-class classification. We found that exclusively using dissimilarity as a proxy to distinguish between vaccines and non-vaccines to create a negative class is not supported by evidence. However, this is not decisive evidence, but only an indication of being a poor strategy. Once fitted, we deployed our models on our testing dataset and even when isolatedly tested, some of them presented robust performance. Taken together in an ensemble, MARVL was compared with state-of-the-art tools and was able to outperform them for most performance metrics, when validated using the sequences resulting from PADA-ONE screening. Therefore, PADA-ONE and MARVL are novelties that contribute to the scientific community in terms of organizing and systematizing the search for new IRPs and metadata associated, as well as predicting PAgs and non-PAgs better than existing tools, respectively.pt_BR
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superiorpt_BR
dc.languageengpt_BR
dc.publisherUniversidade Federal de Minas Geraispt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentICB - INSTITUTO DE CIÊNCIAS BIOLOGICASpt_BR
dc.publisher.programPrograma de Pós-Graduação em Genéticapt_BR
dc.publisher.initialsUFMGpt_BR
dc.relationPrograma Institucional de Internacionalização – CAPES - PrIntpt_BR
dc.rightsAcesso Restritopt_BR
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/pt/*
dc.subjectMachine-learningpt_BR
dc.subjectReverse vaccinologypt_BR
dc.subjectPAgspt_BR
dc.subject.otherGenéticapt_BR
dc.subject.otherGenomapt_BR
dc.subject.otherAntígenospt_BR
dc.subject.otherVacinologiapt_BR
dc.subject.otherAprendizado de Máquinapt_BR
dc.titleApplications of machine learning to reverse vaccinology: prediction of vaccine candidates based on parasite genomic datapt_BR
dc.title.alternativeAplicações de aprendizado de máquina na vacinologia reversa: predição de candidatos vacinais baseada em dados genômicos de parasitaspt_BR
dc.typeTesept_BR
dc.description.embargo2025-07-05-
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
Applications of machine learning to reverse vaccinology: prediction of vaccine candidates based on parasite genomic data .pdf
???org.dspace.app.webui.jsptag.ItemTag.restrictionUntil??? 2025-07-05
8.56 MBAdobe PDFView/Open    Request a copy


This item is licensed under a Creative Commons License Creative Commons