PFSTATS: sistema para estudo de famílias de proteínas através de detecção de resíduos conservados e decomposição de redes de coevolução
Carregando...
Arquivos
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Dissertação de mestrado
Título alternativo
Primeiro orientador
Membros da banca
Laila Alves Nahum
Gisele Lobo Pappa
José Miguel Ortega
Gisele Lobo Pappa
José Miguel Ortega
Resumo
Análises por conservação e correlação de aminoácidos podem fornecer informa-
ções importantes acerca da estrutura e função de famílias de proteínas. Além disso,
resultados experimentais sugerem que o enovelamento de proteínas pode ser alcançado
com menos caracteres do que os 20 aminoácidos de ocorrência natural. Nosso grupo
propôs recentemente um método para obter determinantes de sub-classes funcionais
em famílias de proteínas chamado Decomposição de Redes de Coevolução de Resíduos
(DRCN). O DRCN consiste de um método baseado em sequência para análises de
famílias de proteínas representadas por alinhamentos múltiplos de sequências. Apresentamos
um software para análises de famílias de proteínas através de DRCN, estudos
de conservação de resíduos, aplicações de redução de alfabeto e busca automática por
anotações. Os algoritmos foram agrupados de modo a ter uma aplicação robusta e intuitiva
para o estudo de proteínas homólogas. As análises por DRCN necessitam de um
único arquivo de entrada obrigatório, um alinhamento múltiplo de sequências (AMS),
apesar de que um arquivo no formato PDB também pode ser utilizado para visualização
de resultados na estrutura. A qualidade do AMS é o principal fator para obter melhores
resultados utilizando esta metodologia, logo, o sistema disponibiliza uma etapa
de ltragem de sequências a m de maximizar a representatividade do AMS através
da remoção de fragmentos, sequências mal alinhadas e redundância. Foram estudados
quatro domínios de famílias de proteínas: lisozimas de tipo C/alfalactoalbuminas, fosfolipases
A2, proteínas reguladoras de nitrogênio PII e o domínio de ligação de DNA
dos receptores nucleares IV; três diferentes abordagens de AMS extraídas do PFAM e
19 alfabetos de aminoácidos reduzidos disponíveis na literatura. Nestes estudos, foram
encontradas informações sobre sítios catalíticos e de ligação em todas as quatro famí-
lias, além de dados relacionados a estruturas secundárias, núcleo hidrofóbico e sítio
de dimerização. Ao observar as arestas de anti-correlação, foi encontrado um ou mais
resíduos que separavam duas ou mais subclasses, este é o caso do C122 nas fosfolipases
A2. Este nó formou um hub de correlações negativas conectando resíduos de cada
uma das outras comunidades identi cadas. Sua presença ocorre em 217 sequências,
sendo todas de Oikopleura dioica. A utilização de alfabetos reduzidos nas análises por
DRCN mostraram aumentar o tamanho das comunidades encontradas, além de manter
hipóteses consistentes para seu signi cado biológico. Porém, em casos como o dos
receptores nucleares, o uso de um alfabeto reduzido pode ocultar uma comunidade que
compartilha posições em comum com outra.
Abstract
Structural and functional insights about protein families can be obtained by
amino acids conservation and correlation analysis. Futhermore, experimental research
has suggested that protein folding can be achieved with fewer characters than the 20
naturally occurring amino acids. Our group has recently proposed a method to obtain
functional sub-class determinants in protein families, called Decomposition of Residue
Coevolution Networks (DRCN). DRCN is a sequence based method for analysis of protein
families represented by multiple sequence alignments. We present a software for
protein family analysis using DRCN, conservation analysis, alphabet reductions and
automatic annotation search. The algorithms were grouped in order to have a robust
and intuitive application to the analysis of homologous proteins. The DRCN analysis
consists of a unique required input le, a multiple sequence alignment (MSA), besides
that a PDB le can be also used to visualize the results in the structure. The MSA
quality is a crucial factor to achieve better results with the methodology, therefore, a
ltering step is available to maximize its representativeness by removing fragments, poorly
aligned sequences and redundancy. We have studied four protein family domains:
lysozyme C/Alpha-lactoalbumin, phospholipases A2, nitrogen regulatory protein PII
and the DNA binding domain of the nuclear receptors IV; three MSAs aproaches extracted
from PFAM and 19 amino acids reducted alphabets from literature. We have
found insights about catalyctic and binding sites in all of then, there's also information
related to secondary structure, the hydrophobic putative channel and dimer site. By
looking for the anti-correlated edges, we could nd a residue or a group of residues that
separates two or more sub-classes. That's the case of the C122 in the phospholipase
A2, this node form an anti-correlated hub that connects every community. Its presence
occurs in 217 sequences, all from Oikopleura dioica, and all without the phospholipase
catalyctic activity. The uses of reduced alphabet in DRCN analysis usually increase the
number of residues in each community and in the most cases maintaining a consistent
hypothesis for their biological role. But in cases as this nuclear receptors IV study, the
uses of a reduced alphabet can hide clusters that share common positions with another
community.
Assunto
Biologia computacional, Aminoácidos, Coevolução biológica
Palavras-chave
Sistemas complexos, Conservação de aminoácidos, Reduções de alfabeto, Redes de coevolução
Citação
Departamento
Endereço externo
Avaliação
Revisão
Suplementado Por
Referenciado Por
Licença Creative Commons
Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso Aberto
