Use este identificador para citar ou linkar para este item: http://hdl.handle.net/1843/74615
Tipo: Tese
Título: Predição e validação de genes essenciais em procariotos e eucariotos utilizando aprendizado de máquina e atributos intrínsecos à sequência
Título(s) alternativo(s): Prediction and validation of essential genes in prokaryotes and eukaryotes using machine learning and sequence-intrinsic attributes
Autor(es): Giovanni Marques de Castro
Primeiro Orientador: Francisco Pereira Lobo
Primeiro membro da banca : Glória Regina Franco
Segundo membro da banca: Mariana Torquato Quezado de Magalhaes
Terceiro membro da banca: Eric Roberto Guimarães Rocha Aguiar
Quarto membro da banca: Fabiano Sviatopolk-Mirsky Pais
Resumo: Genes essenciais são aqueles cuja ausência do produto funcional é incompatível com a viabilidade do organismo. Genes não-essenciais, ao contrário, são aqueles onde esta ausência ainda produz indivíduos fenotipicamente viáveis. A caracterização em larga escala destes genes provê a descrição de genomas mínimos compatíveis com a vida celular, bem como sugere alvos moleculares interessantes para o desenvolvimento de bioinseticidas mais específicos e com menor impacto ambiental. Entretanto, uma vez que sua caracterização experimental é custosa e demorada,diversas estratégias computacionais têm sido utilizadas para a predição de genes essenciais. Dentre estas, destaca-se o aprendizado de máquina,que utiliza programas são capazes de aprender a partir da experiência. Os algoritmos de aprendizado de máquina utilizados para a predição de genes essenciais podem utilizar dois tipos de atributos gene-cêntricos:1) extrínsecos à sequência, definidos como aqueles que utilizam informação que não está contida na própria sequência gênica (e.g. perfil de expressão gênica, anotação); 2) intrínsecos à sequência, definidos como aqueles que são computados a partir da sequência gênica, somente(e.g. frequência de k-mers, entropia). Embora os preditores de genes essenciais que usam atributos extrínsecos sejam superiores aos que utilizam somente atributos intrínsecos, estes carecem de generalização, uma vez que não podem ser utilizados em organismos não-modelo que não possuam informações extrínsecas. Nesse trabalho, desenvolvemos e validamos uma rotina computacional completa para a predição de genes essenciais em procariotos e eucariotos. Especificamente, desenvolvemos um pacote R que integra e calcula5093 atributos nucleotídicos e 9815 protéicos, totalizando 14908 atributos intrínsecos. Estes atributos, em conjunto com os rótulos(genes essenciais versus genes não-essenciais) são utilizados para treinar modelos de florestas aleatórias e gradient boosting, levando-se em consideração o estado-da-arte para a avaliação de desempenho dos modelos produzidos. Validamos nossa metodologia inicialmente construindo bancos de dados de alta qualidade de genes essenciais e não-essenciais para duas espécies de procariotos filogeneticamente distantes (Acinetobacter baylyi, Proteobacteria; Staphylococcus aureus,Firmicutes) e para duas espécies de inseto (Drosophila melanogaster, Diptera; Tribolium castaneum, Coleoptera). Posteriormente, utilizamos estes bancos para treinar classificadores para cada uma das quatro espécies. Como validação, demonstramos que classificadores treinados com dados de uma espécie de procarioto/inseto são capazes de predizer genes essenciais em outra espécie de procarioto/inseto, o que emula o uso cotidiano da ferramenta. O código-fonte do projeto, bem como os bancos de dados de genes essenciais e não-essenciais desenvolvidos nesse estudo encontram-se disponíveis em https://github.com/g1o/GeneEssentiality.
Abstract: Essential genes are defined as those whose absence of the functional product is incompatible with the organism's viability. Non-essential genes, in contrast, are those where this absence still generates phenotypically viable individuals. The large-scale characterization of these genes provides the description of minimal genomes compatible with cellular life, as well as suggests potential molecular targets for the development of specific biopesticides with a smaller ecological footprint. However, since the experimental characterization of these genes is a costly and time-consuming process, several computational strategies have been used for the prediction of essential genes. A common approach in this direction is the usage of machine learning algorithms, since these programs are expected to learn from experience and the use of data. Machine learning algorithms developed to predict essential genes can use two types of gene-centric attributes: 1) extrinsic, defined as those that use information not contained in the gene sequence itself (e.g. gene expression profile, annotation); 2) intrinsic, defined as those computed from the gene sequence only (e.g. frequency of k-mers, entropy). Even though essential gene predictors that use extrinsic attributes have superior performance compared to those that use only intrinsic attributes, they former lack generalization, since they cannot be used in non-model organisms that do not have extrinsic information. In this work, we developed and validated a complete computational routine for the prediction of essential genes in prokaryotes and eukaryotes. Specifically, we developed an R package that integrates and calculates 5093 nucleotide and 9815 protein attributes, totaling 14908 intrinsic attributes. These attributes, together with the labels (essential genes versus non-essential genes), are then used to train random forest models and gradient boosting models while taking into account the state-of-the-art for model performance evaluation. We validated our methodology by gathering high-quality sequence information data of essential and non-essential genes for two phylogenetically distant prokaryote species (Acinetobacter baylyi, Proteobacteria; Staphylococcus aureus, Firmicutes) and for two insect species (Drosophila melanogaster, Diptera; Tribolium castaneum, Coleoptera). We used these data to train individual classifiers for each species. As validation, we demonstrate that classifiers trained with data from one species of prokaryote/insect are able to predict essential genes in another species of prokaryote/insect, which emulates the daily use of the tool in new organisms. The source code for the calculation of attributes and models training, as well as the databases of essential and non-essential genes used in this study are available at https://github.com/g1o/GeneEssentiality.
Assunto: Bioinformática
Genes Essenciais
Aprendizado de Máquina
Idioma: por
País: Brasil
Editor: Universidade Federal de Minas Gerais
Sigla da Instituição: UFMG
Departamento: ICB - INSTITUTO DE CIÊNCIAS BIOLOGICAS
Curso: Programa de Pós-Graduação em Bioinformatica
Tipo de Acesso: Acesso Aberto
metadata.dc.rights.uri: http://creativecommons.org/licenses/by-nd/3.0/pt/
URI: http://hdl.handle.net/1843/74615
Data do documento: 30-Jul-2021
Aparece nas coleções:Teses de Doutorado

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Tese2021_finalizado_2023-07-02.pdf3.89 MBAdobe PDFVisualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons