Use este identificador para citar o ir al link de este elemento: http://hdl.handle.net/1843/BUOS-APTQ3E
Tipo: Tese de Doutorado
Título: Ancestralidade e co-regulação de genes codificadores de proteínas humanas
Autor(es): Kátia de Paiva Lopes
primer Tutor: Jose Miguel Ortega
primer Co-tutor: Javier De Las Rivas
primer miembro del tribunal : Gloria Regina Franco
Segundo miembro del tribunal: Francisco Pereira Lobo
Tercer miembro del tribunal: Gabriel da Rocha Fernandes
Cuarto miembro del tribunal: Sandro José de Souza
Resumen: Para caracterização e quantificação do transcriptoma, várias tecnologias foram desenvolvidas, dentre elas as baseadas em clonagem e sequenciamento, como EST (Expressed Sequence Tags), hibridação em larga escala como em microarranjo e as provenientes desequenciamento de nova geração (NGS) como em RNASeq. Portanto, para o estudo da origem dos genes transcritos em diferentes órgãos humanos, foram analisados dados provenientes dessas três abordagens a partir da criação de oito bases de dados locais: ESTs doUnigene, microarranjo da base Gene Expression Omnibus (GEO) e dados de RNASeq do Human Protein Atlas (HPA). Posteriormente, com uso das ferramentas UEKO, OMA e do programa que calcula o LCA (Lowest Common Ancestor) foi possível estimar o clado de origem de cada gene e verificar a dinâmica evolutiva tecido-específica, bem como para o organismo completo. A análise global do organismo com uso da metodologia de filoestratigrafia revelou alguns marcos evolutivos com maior surgimento de genes, os quais foram divididos por nós em oito estágios evolutivos. Essa análise revelou ainda que os geneshousekeeping são mais antigos que os genes tecido-enriquecidos e, os resultados da análise de enriquecimento funcional apresentaram termos e anotações coerentes para cada grupo de genes mapeados em seus estágios evolutivos. Em seguida, para análise de co-expressãogênica foi criada uma rede que inclui 2.298 proteínas e 20.005 interações, sendo que, foram utilizados apenas os pares de genes com correlação de Spearman >= 0.85. Nesta rede, o algoritmo MCODE do Cytoscape demarcou a presença de 11 sub-redes e evidenciou aexistência de ligações estreitas entre proteínas de mesmo estágio evolutivo. Por fim, para análise de genes tecido-específicos foram utilizadas três diferentes estratégias: (1) por agrupamento de tecidos; (2) por classificação em níveis de tecido de acordo com suas categorias fenotípicas e; (3) utilizando os oito tecidos em comum nas quatro bases de dados utilizadas para esta análise: HPA (32 tecidos), IBM (16), Fantom (56) e Gtex (53). Esta última análise demonstrou que é necessário a utilização de um subgrupo de genes expressos paradiferenciação da dinâmica evolutiva, porque quando são utilizados todos os genes expressos, mesmo separadamente por tecido, o resultado final é a dinâmica evolutiva do organismo. Assim, a abordagem que obteve maior concordância de resultados apresenta a seguinte ordemde surgimento dos genes que compõe seus respectivos tecidos em Homo sapiens: primeiro surgiram os genes específicos do cérebro, depois coração, rim, cólon, ovário, próstata, pulmão e testículo.
Abstract: For deduction and quantification of transcriptomic analyses, some technologies were created, among them, there are those based on clone sequencing analysis, like EST (Expressed Sequence Tags), hybridization, such as microarrays and, NGS deep sequencing, asRNAseq. To study the origin of genes expressed in different tissues and organs, we analyzed data obtained from these three approaches. Data from Unigene, Gene Expression Omnibus (GEO) and Human Protein Atlas (HPA) were comprised into eight local databases. Next, accessing the orthologous groups of human genes, given by the UniRef Enriched Kegg Orthology (UEKO) and Orthologous Matrix (OMA) databases, we estimated the gene ages using the Lowest Common Ancestor (LCA) algorithm. Thus, we were able to determine the time of appearance of tissue expressed genes aiming to depict the human organs evolution.The global analysis of the organism, revealed eight distinct hallmarks along the timescale (i.e. eight major steps), showing that the housekeeping (HK) genes are more ancient than the tissue-enriched (TE) genes. The functional enrichment analysis found coherent groups ofterms and annotations assigned to the genes placed at each evolutionary stage. Next, a coexpression analysis was performed calculating the pair-wise Spearman correlation of all genes along 116 samples from HPA, and only selecting as positive gene-pairs, the ones that had acorrelation coefficient 0.85. As result, we ended with a robust network that includes 2,298 proteins and 20,005 interactions. In this network, the algorithm MCODE from Cytoscape revealed the existence of 11 major subnetworks that had a clear enrichment in certain groups or modules of highly coexpressed proteins, showing a tendency to include proteins of the same evolutionary age. Finally, for analysis of tissue-specific (TS) genes, we used thee different strategies: (1) by tissue clusterization; (2) by tissue classification according to phenotypic categories and; (3) using eight common tissues from the four databases used in this step: HPA (32 tissues), IBM (16), Fantom (56) and Gtex (53). Or results showed that,when all expressed genes are used, the analysis lack the tissue specific signature, approaching the distribution appearance of the entire repertoire of genes. Thus, to distinguish the organs origins, we examined the time of appearance of only tissue specific genes or genes withindistinct groups, such as elevated genes. Therefore, the approach that obtained the highest concordance of results, presented the tissues ordered by their gene ages in the following order: first brain, then heart, kidney, colon, ovary, prostate, lung and testis.
Asunto: Bioinformática
Idioma: Português
Editor: Universidade Federal de Minas Gerais
Sigla da Institución: UFMG
Tipo de acceso: Acesso Aberto
URI: http://hdl.handle.net/1843/BUOS-APTQ3E
Fecha del documento: 20-feb-2017
Aparece en las colecciones:Teses de Doutorado

archivos asociados a este elemento:
archivo Descripción TamañoFormato 
tese_katia.pdf14.82 MBAdobe PDFVisualizar/Abrir


Los elementos en el repositorio están protegidos por copyright, con todos los derechos reservados, salvo cuando es indicado lo contrario.