Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/74615
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Francisco Pereira Lobopt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/9614758933055047pt_BR
dc.contributor.referee1Glória Regina Francopt_BR
dc.contributor.referee2Mariana Torquato Quezado de Magalhaespt_BR
dc.contributor.referee3Eric Roberto Guimarães Rocha Aguiarpt_BR
dc.contributor.referee4Fabiano Sviatopolk-Mirsky Paispt_BR
dc.creatorGiovanni Marques de Castropt_BR
dc.creator.Latteshttp://lattes.cnpq.br/7786907457050621pt_BR
dc.date.accessioned2024-08-22T12:18:38Z-
dc.date.available2024-08-22T12:18:38Z-
dc.date.issued2021-07-30-
dc.identifier.urihttp://hdl.handle.net/1843/74615-
dc.description.abstractEssential genes are defined as those whose absence of the functional product is incompatible with the organism's viability. Non-essential genes, in contrast, are those where this absence still generates phenotypically viable individuals. The large-scale characterization of these genes provides the description of minimal genomes compatible with cellular life, as well as suggests potential molecular targets for the development of specific biopesticides with a smaller ecological footprint. However, since the experimental characterization of these genes is a costly and time-consuming process, several computational strategies have been used for the prediction of essential genes. A common approach in this direction is the usage of machine learning algorithms, since these programs are expected to learn from experience and the use of data. Machine learning algorithms developed to predict essential genes can use two types of gene-centric attributes: 1) extrinsic, defined as those that use information not contained in the gene sequence itself (e.g. gene expression profile, annotation); 2) intrinsic, defined as those computed from the gene sequence only (e.g. frequency of k-mers, entropy). Even though essential gene predictors that use extrinsic attributes have superior performance compared to those that use only intrinsic attributes, they former lack generalization, since they cannot be used in non-model organisms that do not have extrinsic information. In this work, we developed and validated a complete computational routine for the prediction of essential genes in prokaryotes and eukaryotes. Specifically, we developed an R package that integrates and calculates 5093 nucleotide and 9815 protein attributes, totaling 14908 intrinsic attributes. These attributes, together with the labels (essential genes versus non-essential genes), are then used to train random forest models and gradient boosting models while taking into account the state-of-the-art for model performance evaluation. We validated our methodology by gathering high-quality sequence information data of essential and non-essential genes for two phylogenetically distant prokaryote species (Acinetobacter baylyi, Proteobacteria; Staphylococcus aureus, Firmicutes) and for two insect species (Drosophila melanogaster, Diptera; Tribolium castaneum, Coleoptera). We used these data to train individual classifiers for each species. As validation, we demonstrate that classifiers trained with data from one species of prokaryote/insect are able to predict essential genes in another species of prokaryote/insect, which emulates the daily use of the tool in new organisms. The source code for the calculation of attributes and models training, as well as the databases of essential and non-essential genes used in this study are available at https://github.com/g1o/GeneEssentiality.pt_BR
dc.description.resumoGenes essenciais são aqueles cuja ausência do produto funcional é incompatível com a viabilidade do organismo. Genes não-essenciais, ao contrário, são aqueles onde esta ausência ainda produz indivíduos fenotipicamente viáveis. A caracterização em larga escala destes genes provê a descrição de genomas mínimos compatíveis com a vida celular, bem como sugere alvos moleculares interessantes para o desenvolvimento de bioinseticidas mais específicos e com menor impacto ambiental. Entretanto, uma vez que sua caracterização experimental é custosa e demorada,diversas estratégias computacionais têm sido utilizadas para a predição de genes essenciais. Dentre estas, destaca-se o aprendizado de máquina,que utiliza programas são capazes de aprender a partir da experiência. Os algoritmos de aprendizado de máquina utilizados para a predição de genes essenciais podem utilizar dois tipos de atributos gene-cêntricos:1) extrínsecos à sequência, definidos como aqueles que utilizam informação que não está contida na própria sequência gênica (e.g. perfil de expressão gênica, anotação); 2) intrínsecos à sequência, definidos como aqueles que são computados a partir da sequência gênica, somente(e.g. frequência de k-mers, entropia). Embora os preditores de genes essenciais que usam atributos extrínsecos sejam superiores aos que utilizam somente atributos intrínsecos, estes carecem de generalização, uma vez que não podem ser utilizados em organismos não-modelo que não possuam informações extrínsecas. Nesse trabalho, desenvolvemos e validamos uma rotina computacional completa para a predição de genes essenciais em procariotos e eucariotos. Especificamente, desenvolvemos um pacote R que integra e calcula5093 atributos nucleotídicos e 9815 protéicos, totalizando 14908 atributos intrínsecos. Estes atributos, em conjunto com os rótulos(genes essenciais versus genes não-essenciais) são utilizados para treinar modelos de florestas aleatórias e gradient boosting, levando-se em consideração o estado-da-arte para a avaliação de desempenho dos modelos produzidos. Validamos nossa metodologia inicialmente construindo bancos de dados de alta qualidade de genes essenciais e não-essenciais para duas espécies de procariotos filogeneticamente distantes (Acinetobacter baylyi, Proteobacteria; Staphylococcus aureus,Firmicutes) e para duas espécies de inseto (Drosophila melanogaster, Diptera; Tribolium castaneum, Coleoptera). Posteriormente, utilizamos estes bancos para treinar classificadores para cada uma das quatro espécies. Como validação, demonstramos que classificadores treinados com dados de uma espécie de procarioto/inseto são capazes de predizer genes essenciais em outra espécie de procarioto/inseto, o que emula o uso cotidiano da ferramenta. O código-fonte do projeto, bem como os bancos de dados de genes essenciais e não-essenciais desenvolvidos nesse estudo encontram-se disponíveis em https://github.com/g1o/GeneEssentiality.pt_BR
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superiorpt_BR
dc.languageporpt_BR
dc.publisherUniversidade Federal de Minas Geraispt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentICB - INSTITUTO DE CIÊNCIAS BIOLOGICASpt_BR
dc.publisher.programPrograma de Pós-Graduação em Bioinformaticapt_BR
dc.publisher.initialsUFMGpt_BR
dc.rightsAcesso Abertopt_BR
dc.rights.urihttp://creativecommons.org/licenses/by-nd/3.0/pt/*
dc.subjectAprendizado de máquinapt_BR
dc.subjectGenes essenciaispt_BR
dc.subjectPerda de funçãopt_BR
dc.subjectDrosophila melanogasterpt_BR
dc.subjectTribolium castaneumpt_BR
dc.subjectProcariotospt_BR
dc.subject.otherBioinformáticapt_BR
dc.subject.otherGenes Essenciaispt_BR
dc.subject.otherAprendizado de Máquinapt_BR
dc.titlePredição e validação de genes essenciais em procariotos e eucariotos utilizando aprendizado de máquina e atributos intrínsecos à sequênciapt_BR
dc.title.alternativePrediction and validation of essential genes in prokaryotes and eukaryotes using machine learning and sequence-intrinsic attributespt_BR
dc.typeTesept_BR
dc.identifier.orcid0000-0002-2981-3860pt_BR
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
Tese2021_finalizado_2023-07-02.pdf3.89 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons