ARCADE (ARChaeplastida Annotation DatabasE): um banco de dados para estudos genômicos comparativos sobre a evolução de fenótipos complexos em Archaeplastida

Carregando...
Imagem de Miniatura

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Minas Gerais

Descrição

Tipo

Tese de doutorado

Título alternativo

ARCADE (ARChaeplastida Annotation DatabasE): a database for comparative genomic studies on the evolution of complex phenotypes in Archaeplastida

Primeiro orientador

Membros da banca

Laila Alves Nahum
Jurandir Vieira de Magalhães
Wellington Ronildo Clarindo
Douglas Silva Domingues

Resumo

A abundância de dados genômicos de plantas fruto da diminuição dos custos de sequenciamento contrasta com a falta de bancos de dados que integrem estes dados com anotação genômica, taxonomia e fenótipos para produzir conhecimento estatisticamente sólido e biologicamente relevante. Aqui apresentamos o ARCADE (ARChaeplastida Annotation DatabasE), um banco de dados de 171 proteomas não redundantes de Archaeplastida de alta qualidade coletados de seis fontes primárias diferentes, juntamente com métricas de qualidade de proteoma e um número crescente de metadados associados. Como estudos de caso para demonstrar a utilidade do ARCADE , investigamos três cenários evolutivos contrastantes em termos filogenéticos e fenotípicos: 1) a expansão e contração de domínios proteicos associados à evolução do tamanho do genoma (TG) em plantas terrestres; 2) a evolução da altura máxima em angiospermas; 3) e a origem e evolução da família de genes DELAY OF GERMINATION1 (DELAY OF GERMINATION1 Gene Family DGF) em Archaeplastida. Integramos as anotações genômicas e informações filogenéticas disponíveis no ARCADE juntamente com dados fenotípicos disponíveis publicamente para investigar dois fenótipos vegetais complexos e altamente variáveis (TG e altura). TG parece estar diminuindo ao longo da evolução, exceto por alguns ramos que podem ter sofrido aumentos independentes de TG. Descobrimos que a variação de TG em plantas terrestres está relacionada principalmente ao metabolismo de nucleotídeos, reparo de DNA e organização do genoma. Também vimos que em genomas maiores há maior frequência da superfamília de histonas 2A, responsável por diversas funções, incluindo a formação de nucleossomos e silenciamento de elementos transponíveis. Nossos resultados indicam que pode haver uma associação entre a variação do tamanho do genoma em plantas terrestres e a preservação da estabilidade do genoma, sugerindo a evolução de mecanismos para que auxiliem plantas terrestres a lidarem com a variação no TG. Sobre a evolução da altura em angiospermas, destacamos a detecção de expansões independentes do sistema de autoincompatibilidade em angiospermas mais altas, mecanismo molecular que diminui a endogamia e aumenta a diversidade genética. As angiospermas mais altas possuem menores taxas evolutivas, uma vez que também possuem ciclos de vida maiores do que plantas menores, usualmente anuais. A expansão dos sistemas de auto-incompatibilidade nas angiospermas mais altas pode ser um importante fator causando um aumento da variabilidade genética nessas espécies, contrabalanceando suas menores taxas evolutivas. A família DGF é um componente chave na regulação de muitos processos em angiospermas, como germinação e floração. No entanto, pode ser encontrado em plantas terrestres não-angiospermas. Nossa busca em 171 espécies dos principais clados de Archaeplastida detectou a presença de genes desta família em 6 espécies de Charophyta. Este resultado é evidência de uma origem mais antiga para esta família de genes do que se pensava anteriormente e contribui para a discussão da evolução dos DGFs. Em conjunto, os resultados que obtivemos nesses estudos de caso demonstram a inovação e relevância científica de ARCADE, um recurso para estudos genômicos comparativos da evolução de fenótipos complexos em plantas.

Abstract

The abundance of plant genomic data as a result of decreasing sequencing costs contrasts with the lack of databases that integrate these data with genomic annotation, taxonomy and phenotypes to produce statistically solid and biologically relevant knowledge. Here we present ARCADE (ARChaeplastida Annotation DatabaseE), a database of 171 high quality non-redundant Archaeplastida proteomes collected from six different primary sources, along with proteome quality metrics and an increasing number of associated metadata. As case studies to demonstrate the usefulness of ARCADE, we investigated three contrasting evolutionary scenarios in phylogenetic and phenotypic terms: 1) the expansion and contraction of protein domains associated with genome size (GS) evolution in land plants; 2) the evolution of maximum height in angiosperms; 3) and the origin and evolution of the DELAY OF GERMINATION1 gene family (DELAY OF GERMINATION1 Gene Family, DGF) in Archaeplastida. We integrated the genomic annotations and phylogenetic information available in ARCADE together with publicly available phenotypic data to investigate two complex and highly variable plant phenotypes (GS and height). GS appears to be decreasing throughout evolution, except for a few branches that may have undergone independent GS increases. We found that GS variation in land plants is mainly related to nucleotide metabolism, DNA repair, and genome organization. We also saw that in larger genomes there is a higher frequency of the histone 2A superfamily, responsible for several functions, including the formation of nucleosomes and silencing of transposable elements (though epigenetic modifications). Our results indicate that there may be an association between genome size variation in land plants and the preservation of genome stability, suggesting the evolution of mechanisms to help land plants deal with GS variation. Regarding the evolution of height in angiosperms, we highlight the detection of independent expansions of the self-incompatibility system in taller angiosperms, a molecular mechanism that reduces inbreeding and increases genetic diversity. Taller angiosperms have lower evolutionary rates, as they also have longer life cycles than smaller plants, usually annuals. The expansion of self-incompatibility systems in taller angiosperms may be an important factor causing an increase in genetic variability in these species, counterbalancing their lower evolutionary rates. The DGF is a key component in the regulation of many processes in angiosperms, such as germination and flowering. However, it can be found in non-angiosperm land plants. Our search in 171 species of the main Archaeplastida clades detected the presence of genes of this family in 6 species of Charophyta. This result is evidence of an older origin for this gene family than previously thought and contributes to the discussion of the evolution of DGFs. Taken together, the results we obtained from these case studies demonstrate the innovation and scientific relevance of ARCADE, a resource for comparative genomic studies of the evolution of complex phenotypes in plants.

Assunto

Genética, Genômica, Tamanho do genoma

Palavras-chave

database, comparative genomics, evolution, gene families, genome size

Citação

Endereço externo

Avaliação

Revisão

Suplementado Por

Referenciado Por

Licença Creative Commons

Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso Aberto