Modelagem e decomposição de redes de cCoevolução de aminoácidos: aplicações em determinação de especificidade e anotação de proteínas

Neli Jose da Fonseca Junior

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/50711

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Lucas Bleicher	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/1342208759733891	pt_BR
dc.contributor.referee1	Laila Alves Nahum	pt_BR
dc.contributor.referee2	Richard Charles Garratt	pt_BR
dc.contributor.referee3	José Miguel Ortega	pt_BR
dc.contributor.referee4	José Ribamar dos Santos Ferreira Jr	pt_BR
dc.creator	Neli Jose da Fonseca Junior	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/9168400134037419	pt_BR
dc.date.accessioned	2023-03-07T19:10:47Z	-
dc.date.available	2023-03-07T19:10:47Z	-
dc.date.issued	2020-09-30	-
dc.identifier.uri	http://hdl.handle.net/1843/50711	-
dc.description.abstract	Computational molecular evolution analyses are usually performed by using multiple sequences alignments of homologous sequences, in which sequences likely originated from a common ancestors are aligned in a such way that equivalent amino acids are set in the same column. Conserved residues in a multiple sequence alignment can be extremely enlightening by suggesting positions under evolutionary selection and constraint. Most of the methods proposed to coevolution and specificity determinant sites are focused in finding positions, therefore they may ignore sites that are specific for a subfamily but variable in the whole alignment; or requires prior knowledge about the subject families, such as list of subfamilies or phylogenetic trees. This project presents a network-based methodology, commonly apllied to social and ecological systems, with the goal to identify clusters of functionally related residues. The method was first validated using artificial datasets and then applied to four real protein families: C-type Lysozyme/Alpha-lactoalbumin, HIUase/Transthyretin, Amidases and the class A G protein-coupled receptors. Patterns of specificity determinant sets for many functional subclasses were successfully extracted from all these families. These networks were then used as features for a support vector machine (SVM) that was able to correctly classify even subfamilies without detected specificty determinant residues. This machine was also applied to the orphan GPCRs generating novel hypothesis about these proteins. We developed a web application with the aim of promote and facilitate the studies performed by the methodology proposed in the project, this system is able to generate a series of data visualization and cross-references with external archives. Finally, we created a database for specificity determinant sites including precalculated analysis with datasets extracted from Pfam. This database, despite generating many intuitional and dynamic reports, it also has a REST API allowing programmatically access to its data.	pt_BR
dc.description.resumo	Estudos de evolução molecular computacional são geralmente conduzidos a partir de alinhamentos múltiplo de sequências homólogas, no qual sequências possivelmente originadas por um ancestral comum são alinhadas de forma que aminoácidos equivalentes ocupem a mesma posição. Padrões de conservação de resíduos em um alinhamento, ou em um subconjunto de suas sequências, podem ser informativos por sugerirem posições sob seleção e restrição evolutiva. A maioria dos métodos propostos para identificação de determinantes de especificidade são focados em posições, logo, acabam ignorando os padrões de determinante para uma subfamília, porém variável no alinhamento como um todo. Além disto, boa parte deles também requerem algum tipo de conhecimento a priori das famílias analisadas, como lista de subfamílias ou árvores filogenéticas. Neste trabalho foi desenvolvido uma metodologia baseado em ciências das redes, com objetivo de identificar grupos de resíduos funcionalmente relacionados. A metodologia foi inicialmente validada a partir de conjunto de dados artificiais e posteriormente aplicada a quatro famílias de proteínas reais. Em todos os casos foram obtidos grupos de resíduos determinantes de especificidade para diversas subclasses funcionais. Estes dados foram posteriormente utilizados como estimadores para uma máquina de suporte de vetores (SVM) que foi capaz de classificar corretamente até mesmo subclasses, a quais nenhum resíduo específico foi identificado. A classificação foi também aplicada às GPCRs órfãs gerando novas hipóteses a respeito das classes funcionais destas sequências. Um sistema web foi desenvolvido com o objetivo de promover e facilitar as analises utilizando as metodologias propostas neste projeto. Além disto, foi desenvolvido um banco de dados de sítios determinantes de especificidades contendo analises previamente calculadas com conjunto de dados obtidos pelo Pfam. Este banco, além de também produzir uma serie de relatórios dinâmicos e intuitivos, possui também uma REST API que permite que estes dados sejam acessados programaticamente.	pt_BR
dc.description.sponsorship	CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	ICB - INSTITUTO DE CIÊNCIAS BIOLOGICAS	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Bioinformatica	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Analises de coevolução	pt_BR
dc.subject	Bioinformática funcional	pt_BR
dc.subject	Ciências das redes	pt_BR
dc.subject	Aprendizagem de máquina	pt_BR
dc.subject	Engenharia de software	pt_BR
dc.subject.other	Biologia computacional	pt_BR
dc.subject.other	Coevolução	pt_BR
dc.subject.other	Redes reguladoras de gene	pt_BR
dc.subject.other	Aprendizado de máquina	pt_BR
dc.title	Modelagem e decomposição de redes de cCoevolução de aminoácidos: aplicações em determinação de especificidade e anotação de proteínas	pt_BR
dc.type	Tese	pt_BR
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
final_com_ficha.pdf	Tese de Neli	27.41 MB	Adobe PDF	View/Open

Show simple item record