Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/33945
Type: Dissertação
Title: A evolução da complexidade biológica em Eukarya: funções biológicas e domínios de proteínas associados ao número de tipos celulares diferentes
Authors: Dalbert Benjamim da Costa
First Advisor: Francisco Pereira Lobo
First Referee: Romeu Cardoso Guimarães
Second Referee: Gustavo Campos e Silva Kuhn
Abstract: Durante o curso da evolução biológica de eucariotos, organismos com diferentes graus de complexidade emergiram. Para fins práticos, o número de tipos celulares distintos tem sido comumente utilizado como um proxy para a complexidade biológica. Também durante o curso da evolução, novas proteínas emergiram em Eukarya como resultado de evolução de novo, duplicações gênicas seguidas por divergência e, em vários casos, embaralhamento de domínios (domain shuffling). Utilizamos uma abordagem estatística e de genômica comparativa para estudar a evolução da complexidade biológica em eucariotos, pesquisando por funções biológicas (representadas como a frequência de domínios de proteínas e de funções gênicas codificadas em uma ampla gama de genomas eucarióticos) associadas ao seu número de tipos celulares diferentes. Para tal, inicialmente selecionamos 41 proteomas não-redundantes eucarióticos de alta qualidade em termos de completude do repertório gênico, estimado pelo software BUSCO, e que possuam informação sobre o número de tipos celulares. Para os proteomas selecionados, realizamos a anotação dos mesmos usando o programa InterProscan, de modo a detectarmos quais são os domínios protéicos (identificados no banco de dados Pfam) e quais funções biológicas (identificados por termos Gene Ontology) codificados nestes genomas. Buscamos dois tipos de associação entre as frequências de domínios/termos GO em cada proteoma não-redundante e o número de diferentes tipos de células para as espécies correspondentes. Uma das associações consiste na correlação de Spearman, sendo o outro tipo de modelo corrigido de modo a levar em consideração a história filogenética das espécies analisadas, de modo a eliminar possíveis dependências dos dados em função da origem evolutiva comum dos organismos em análise. Para ambos computamos valores p, os quais são posteriormente corrigidos em função do cenário de múltiplas hipóteses (BH). Consideramos como positivos os modelos onde obtivemos valores p corrigidos menores que p ≤ 0.05. Encontramos 256 domínios Pfam e 304 funções biológicas que desempenham papéis importantes nos processos de matriz extracelular, interação célula-célula, fatores de transcrição, hormônios, processos regulatórios e fatores-chave para diferenciação celular e processos de desenvolvimento corporal. Em conjunto, nossa abordagem destaca importantes processos biológicos associados ao aumento da complexidade em Eukarya, sugerindo sua importância para o estabelecimento da complexidade biológica existente.
Abstract: During the course of biological evolution, organisms with different degrees of complexity have arisen. For practical purposes, the number of distinct cell types has been commonly used as a proxy for biological complexity. Also during the course of evolution, new proteins emerged in Eukarya as the result of de novo gene evolution, gene duplications followed by divergence and, in several cases, functional domain shuffling. We used a statistical comparative genomics approach to study the evolution of biological complexity in Eukarya by searching for biological functions (represented as the frequency of protein domains and gene functions coded in a wide range of eukaryotic genomes) associated with their number of cell types. We selected 41 high-quality non-redundant eucaryotic proteomes in terms of gene repertoire completeness as estimated by BUSCO and, for each proteome was annotated to identify protein domains (Pfam) and biological functions (Gene Ontology - GO - terms) using InterProScan. We compute two classes of association metrics for the frequencies of each Pfam/GO term and the number of cell types. One class consists on traditional Spearman correlation, while the other is corrected to take into account the common ancestry relationships across species data, therefore correcting for this bias. For each linear model we computed p-values, and we applied multiple hypothesis correction (BH methods) to take into account the multiple-comparison problem. We considered as positive models with corrected p-values smaller than 0.05 resulting in 256 Pfam domains and 304 GO terms significantly associated with biological complexity. Among these sets we found several domains that play important roles in extracellular matrix processes, cell-cell interaction, transcription factors, hormones, regulatory processes and key factors for cell differentiation and body development processes. Taken together, our approach highlights important biological processes associated with the increase of complexity in Eukarya, suggesting their importance for the establishment of extant biological complexity.
Subject: Genética
Eucariotos
Genômica
Biologia computacional
Ontologia genética
language: por
metadata.dc.publisher.country: Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.department: ICB - INSTITUTO DE CIÊNCIAS BIOLOGICAS
metadata.dc.publisher.program: Programa de Pós-Graduação em Genética
Rights: Acesso Aberto
metadata.dc.rights.uri: http://creativecommons.org/licenses/by-nd/3.0/pt/
URI: http://hdl.handle.net/1843/33945
Issue Date: 26-Sep-2019
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
dissertacao_dalbert_benjamim_da_costa_ppg_genetica.pdf4.96 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons