Integração de bases de dados de genes homólogos e aplicação em análises de sequências

Gabriel da Rocha Fernandes

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/BUOS-9PNKJA

Type:	Tese de Doutorado
Title:	Integração de bases de dados de genes homólogos e aplicação em análises de sequências
Authors:	Gabriel da Rocha Fernandes
First Advisor:	Jose Miguel Ortega
First Referee:	Peer Bork
Second Referee:	Gloria Regina Franco
Third Referee:	Daniella Castanheira Bartholomeu
metadata.dc.contributor.referee4:	Sandro José de Souza
metadata.dc.contributor.referee5:	Mauricio Egidio Cantão
Abstract:	Bases de dados biológicos são importantes fontes para pesquisas científicas. Algumas bases secundárias agrupam suas proteínas em grupos de ortólogos e categorias funcionais, como as bases COG (Cluster of Ortholog Groups) e KO (KEGG Orthology). A base KO foi usada em um teste de anotação automatizada de ESTs de Caenorhabditis elegans. Conduzimos um experimento controle em que a EST é designada à sua proteína cognata de C. elegans. Para a anotação simulamos um transcriptoma novo removendo as seqüências do verme da base de dados. Obtivemos três classes de anotação: corretas ou trocadas (quando o KO anotado era respectivamente igual ou discordante do designado) e especuladas (quando a EST era anotada, porém não designada). Obtivemos 68%, 4% e 28% de anotações corretas, trocadas e especuladas, respectivamente. Entretanto, as especulações diminuem para 4,4% quando designamos essas ESTs a proteínas que não estão na base KO. Para isso utilizamos proteínas KEGG não classificadas em grupos KO. Na tentativa de aumentar a quantidade de informações em bases de dados como COG e KO, desenvolvemos uma metodologia baseada no recrutamento de seqüências que compartilhem o mesmo grupo UniRef50 de uma proteína recrutadora já existente na base de dados original. Um filtro de seleção de tamanho retirava recrutadas com mais que 10% de diferença de tamanho da recrutadora. Utilizando essa metodologia aumentamos a quantidade de proteínas na base COG de 124.369, provenientes de 63 genomas, para 961.725, com representantes de 3.477 genomas. A base recebeu a denominação UniRef Enriched COG (UECOG). Recentemente um novo enriquecimento foi feito utilizando um filtro em que exigíamos que o alinhamento entre a proteína recrutadora e a recrutada apresentasse valor-e menor que 1x10-10 e cobrisse pelo menos 50% da proteína recrutadora. Com isso obtivemos um total de 2.450.485 entradas, oriundas de 5.748 organismos distintos (UECOG 2.0). O último procedimento foi utilizado para enriquecer a base de dados KO, aumentando as informações contidas de 1.940.617 proteínas para 4.447.538, e o número de organismos presentes de 1.315 para 32.213. A utilização de filtros de significância do alinhamento e de cobertura da seqüência recrutadora mostrou alta acurácia ao separar proteínas semelhantes, mas que possuem grupos de ortólogos distintos. A base enriquecida UEKO (UniRef Enriched KO) foi usada para testar a anotação automatizada de ESTs, como descrito anteriormente. A proporção de anotações trocadas diminuiu para 1% e as corretas aumentaram para 74%. Entretanto, as especulações continuaram freqüentes, mostrando que ainda existe muita informação a ser acrescentada. O número de anotações corretas, todavia, aumentou em 12%. Foram realizados também estudos de metagenomas de microbiota intestinal humana. Um deles, utilizando 13 amostras públicas comparou as anotações proporcionadas pelo KO e UEKO. Essa comparação mostrou que a base UEKO anota mais que KO, já que mais de 100 grupos tem alinhamento exclusivo com a base enriquecida. Entretanto, a grande diferença é de caráter qualitativo, uma vez que há uma melhoria nos escores atribuídos pelo BLAST e as sequências são anotadas por proteínas de clados mais próximos, o que foi demonstrado por análise filogenética. O outro estudo procurou analisar, filogenética e funcionalmente, a estrutura da microbiota e identificamos nas amostras certos padrões filogenéticos e funcionais. Esses grupos, chamados de enterotipos, possuem características que os diferenciam dos demais, como a super-representação em um determinado enterotipo de enzimas envolvidas na síntese de vitaminas, em relação aos demais.
Abstract:	Biological databases are very useful sources for scientific research. Some secondary databases organize their data in orthologous groups and functional categories, such as COG (Cluster of Ortholog Groups) and KO (KEGG Orthology). The KO database was used for an automatic annotation test with C. elegans' ESTs. We performed a control experiment on which an EST is designated to its cognate protein in C. elegans. To the annotation stage we simulated a new transcriptome by removing the worms sequences from the database. We obtained three annotation classes: correct or changed (when the annotated KO was equal or different from the designated, respectively) and speculated (when the EST is annotated, but not designated). We obtained 68%, 4% and 28% correct, changed and speculated annotations, respectively. However, the speculation decreases to 4,4% when we designate those EST using proteins that are not included in KO database. Trying to increase the amount of information in databases like COG and KO, we developed a methodology based on recruiting sequences that share the UniRef50 cluster as a recruiter protein that is already present on the original database. A size selection filter removed recruited proteins with a difference higher than 10% the recruiter protein length. Using this methodology we increased the amount of proteins in the COG database from 124.369, from 63 genomes, to 961.725, representing 3.477 genomes. The database was denominated UniRef Enriched COG (UECOG). Recently a new enrichment was performed using a filter which we required that the alignment between the recruited and recruiter proteins showed an valor-e lower than 1x10-10 and cover at least 50% of the recruiter protein. We obtained 2.450.485 entries, from 5.748 distinct genomes (UECOG 2.0). The previous procedure was used to enrich the KO database, increasing the amount of data from 1.940.617 proteins to 4.447.538, and the amount of organisms from 1.315 to 32.213. The usage of alignment significance filter and recruiter sequence coverage showed high accuracy in separating similar proteins, but with different orthologous groups. The enriched database UEKO (UniRef Enriched KO) was used to test the automated annotation of ESTs, as described previously. The proportion of changed annotation decreased to 1% and the correct increased to 74%. However, the speculation remained frequent, showing that we still have a lot of information to be added. The amount of correct annotation increased in 12%. We also performed studies of the human gut microbial metagenome. One of them, using 13 public samples, compared the annotation provided by KO and UEKO. This comparison showed that the UEKO database annotates more sequences than KO, once that more than 100 groups have exclusive alignment with the enriched database. However, the major difference is in qualitative aspect, once that we have an improvement in BLAST scores and proteins from closer clades annotate the sequences, which was demonstrated by phylogenetic analysis. The other study aimed in analyzing, phylogenetic and functionally, the microbiota structure and we identified certain phylogenetic and functional patterns. Those groups, known as enterotypes, have some features that differentiate them from the others, such as the over-representation of enzymes related to vitamin biosynthesis in some enterotype when compared to the others.
Subject:	Metagenômica Bioinformática Transcriptômica
language:	Português
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
Rights:	Acesso Aberto
URI:	http://hdl.handle.net/1843/BUOS-9PNKJA
Issue Date:	31-Mar-2011
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
tesegabrielfernandes.pdf		14.84 MB	Adobe PDF	View/Open

Show full item record