Predição e validação de genes essenciais em procariotos e eucariotos utilizando aprendizado de máquina e atributos intrínsecos à sequência

Giovanni Marques de Castro

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/74615

Type:	Tese
Title:	Predição e validação de genes essenciais em procariotos e eucariotos utilizando aprendizado de máquina e atributos intrínsecos à sequência
Other Titles:	Prediction and validation of essential genes in prokaryotes and eukaryotes using machine learning and sequence-intrinsic attributes
Authors:	Giovanni Marques de Castro
First Advisor:	Francisco Pereira Lobo
First Referee:	Glória Regina Franco
Second Referee:	Mariana Torquato Quezado de Magalhaes
Third Referee:	Eric Roberto Guimarães Rocha Aguiar
metadata.dc.contributor.referee4:	Fabiano Sviatopolk-Mirsky Pais
Abstract:	Genes essenciais são aqueles cuja ausência do produto funcional é incompatível com a viabilidade do organismo. Genes não-essenciais, ao contrário, são aqueles onde esta ausência ainda produz indivíduos fenotipicamente viáveis. A caracterização em larga escala destes genes provê a descrição de genomas mínimos compatíveis com a vida celular, bem como sugere alvos moleculares interessantes para o desenvolvimento de bioinseticidas mais específicos e com menor impacto ambiental. Entretanto, uma vez que sua caracterização experimental é custosa e demorada,diversas estratégias computacionais têm sido utilizadas para a predição de genes essenciais. Dentre estas, destaca-se o aprendizado de máquina,que utiliza programas são capazes de aprender a partir da experiência. Os algoritmos de aprendizado de máquina utilizados para a predição de genes essenciais podem utilizar dois tipos de atributos gene-cêntricos:1) extrínsecos à sequência, definidos como aqueles que utilizam informação que não está contida na própria sequência gênica (e.g. perfil de expressão gênica, anotação); 2) intrínsecos à sequência, definidos como aqueles que são computados a partir da sequência gênica, somente(e.g. frequência de k-mers, entropia). Embora os preditores de genes essenciais que usam atributos extrínsecos sejam superiores aos que utilizam somente atributos intrínsecos, estes carecem de generalização, uma vez que não podem ser utilizados em organismos não-modelo que não possuam informações extrínsecas. Nesse trabalho, desenvolvemos e validamos uma rotina computacional completa para a predição de genes essenciais em procariotos e eucariotos. Especificamente, desenvolvemos um pacote R que integra e calcula5093 atributos nucleotídicos e 9815 protéicos, totalizando 14908 atributos intrínsecos. Estes atributos, em conjunto com os rótulos(genes essenciais versus genes não-essenciais) são utilizados para treinar modelos de florestas aleatórias e gradient boosting, levando-se em consideração o estado-da-arte para a avaliação de desempenho dos modelos produzidos. Validamos nossa metodologia inicialmente construindo bancos de dados de alta qualidade de genes essenciais e não-essenciais para duas espécies de procariotos filogeneticamente distantes (Acinetobacter baylyi, Proteobacteria; Staphylococcus aureus,Firmicutes) e para duas espécies de inseto (Drosophila melanogaster, Diptera; Tribolium castaneum, Coleoptera). Posteriormente, utilizamos estes bancos para treinar classificadores para cada uma das quatro espécies. Como validação, demonstramos que classificadores treinados com dados de uma espécie de procarioto/inseto são capazes de predizer genes essenciais em outra espécie de procarioto/inseto, o que emula o uso cotidiano da ferramenta. O código-fonte do projeto, bem como os bancos de dados de genes essenciais e não-essenciais desenvolvidos nesse estudo encontram-se disponíveis em https://github.com/g1o/GeneEssentiality.
Abstract:	Essential genes are defined as those whose absence of the functional product is incompatible with the organism's viability. Non-essential genes, in contrast, are those where this absence still generates phenotypically viable individuals. The large-scale characterization of these genes provides the description of minimal genomes compatible with cellular life, as well as suggests potential molecular targets for the development of specific biopesticides with a smaller ecological footprint. However, since the experimental characterization of these genes is a costly and time-consuming process, several computational strategies have been used for the prediction of essential genes. A common approach in this direction is the usage of machine learning algorithms, since these programs are expected to learn from experience and the use of data. Machine learning algorithms developed to predict essential genes can use two types of gene-centric attributes: 1) extrinsic, defined as those that use information not contained in the gene sequence itself (e.g. gene expression profile, annotation); 2) intrinsic, defined as those computed from the gene sequence only (e.g. frequency of k-mers, entropy). Even though essential gene predictors that use extrinsic attributes have superior performance compared to those that use only intrinsic attributes, they former lack generalization, since they cannot be used in non-model organisms that do not have extrinsic information. In this work, we developed and validated a complete computational routine for the prediction of essential genes in prokaryotes and eukaryotes. Specifically, we developed an R package that integrates and calculates 5093 nucleotide and 9815 protein attributes, totaling 14908 intrinsic attributes. These attributes, together with the labels (essential genes versus non-essential genes), are then used to train random forest models and gradient boosting models while taking into account the state-of-the-art for model performance evaluation. We validated our methodology by gathering high-quality sequence information data of essential and non-essential genes for two phylogenetically distant prokaryote species (Acinetobacter baylyi, Proteobacteria; Staphylococcus aureus, Firmicutes) and for two insect species (Drosophila melanogaster, Diptera; Tribolium castaneum, Coleoptera). We used these data to train individual classifiers for each species. As validation, we demonstrate that classifiers trained with data from one species of prokaryote/insect are able to predict essential genes in another species of prokaryote/insect, which emulates the daily use of the tool in new organisms. The source code for the calculation of attributes and models training, as well as the databases of essential and non-essential genes used in this study are available at https://github.com/g1o/GeneEssentiality.
Subject:	Bioinformática Genes Essenciais Aprendizado de Máquina
language:	por
metadata.dc.publisher.country:	Brasil
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
metadata.dc.publisher.department:	ICB - INSTITUTO DE CIÊNCIAS BIOLOGICAS
metadata.dc.publisher.program:	Programa de Pós-Graduação em Bioinformatica
Rights:	Acesso Aberto
metadata.dc.rights.uri:	http://creativecommons.org/licenses/by-nd/3.0/pt/
URI:	http://hdl.handle.net/1843/74615
Issue Date:	30-Jul-2021
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
Tese2021_finalizado_2023-07-02.pdf		3.89 MB	Adobe PDF	View/Open

Show full item record

This item is licensed under a Creative Commons License