Efeitos da atribuição de pesos a sequências sobre as frequências de aminoácidos em alinhamentos múltiplos de sequências – aplicação em análises de conservação e correlação entre resíduos
Carregando...
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Dissertação de mestrado
Título alternativo
Primeiro orientador
Membros da banca
Resumo
Analisando um alinhamento múltiplo de sequências ao nível de resíduos, além das
posições conservadas existem outros padrões indicativos de importância funcional que
refletem divergência funcional dentro de uma família em decorrência de duplicações
gênicas. Em famílias de proteínas homólogas que apresentam subfamílias com
especificidades funcionais distintas, algumas posições podem apresentar-se conservadas
apenas em uma subfamília particular, ou o aminoácido conservado pode ser diferente para
cada subfamília. Isso sugere que seu papel funcional desse resíduo relaciona-se não com
com a função global da família, mas sim com especificidades funcionais daquele grupo.
Nesses casos, é razoável que tais especificidades não sejam determinadas pela presença de
um único resíduo, mas sim por um grupo de resíduos, e esse grupo irá emergir de análises
de correlação entre resíduos desde que um número suficiente de proteínas apresentem as
mesmas especificidades. Entretanto, algumas famílias de proteínas apresentam subfamílias
pouco representadas em número de sequências nos alinhamentos. Ao mesmo tempo, estes
costumam vir repletos de sequências redundantes, muitas vezes mutantes ou variantes da
mesma sequência, oriundas principalmente de organismos modelo. Essa redundância nos
alinhamentos acaba por enviesar análises com caráter estatístico, como são os métodos de
correlação. Nesse sentido, o presente trabalho tem por objetivo comparar os efeitos de
abordagens distintas que visam a diminuição da redundância em alinhamentos múltiplos de
sequências: a atribuição de pesos a sequências e os filtros por identidade máxima. Além
disso, o presente trabalho também propõe abordagens para tornar os cálculos de correlação
compatíveis com o a atribuição de pesos de sequências, a fim de aperfeiçoar análises de
conservação e correlação entre resíduos. A atribuição de pesos a sequências foi capaz de
destacar as frequências de aminoácidos específicos de subfamílias pouco amostradas, ao
mesmo tempo em que diminuía as frequências de aminoácidos presentes em sequências
redundantes. Os cálculos de correlação adaptados ao uso de pesos foram capazes de
detectar essas diferenças, oferecendo uma boa alternativa para análises de correlação em
alinhamentos pouco representativos da diversidade de proteínas de fato existente na
natureza.
Abstract
Analysing a multiple sequece alignment at the residue level, apart from the
conserved positions, there are other patterns that are also indicative of functional
importance and reflect functional divergence within a homologous protein family due to
gene duplication. In families that have subfamilies with distinct functional specificities,
some positions can be conserved only in a particular subfamily, or the conserved amino
acid can be different for each of the subfamilies. This suggests that the role of this residue
relates not to the global function of the family, but to functional specificities of that group.
In these cases, it is reasonable that such specificities are not determined by the presence of
a single residue, but by a group of residues, and this group will emerge from residue
correlation analysis since a sufficient amount of proteins show the same specificities.
However, some protein families have subfamilies less represented in terms of amount of
sequences in the alignments. Meantime, this alignments use to come full of redundant
sequences, many times mutants or variants of the same sequence, originary mainly from
model organisms. This redundancy in the alignments tend to introduce bias to analysis with
a statistical mean like the correlation methods. In this way, the present work has as
objective to compare the effects of distinct approaches aiming the decreasing of redundancy
in multiple sequence alignments: sequence weighting and filtering by maximum identity.
Besides, this work also proposes approaches to make the correlation calculations
compatible with sequence weighting, in order to improve analisys of residue conservation
and correlation. Sequence weighting was capable of highlighting frequencies of amino
acids specific of less sampled subfamilies, while decreasing the frequencies of amino acids
present in redundant sequences. The adapted calculations were capable of detecting such
differences, providing a good alternative to conservation and correlation analisys in
alignments that are less representative of the actual protein diversity existent in nature.
Assunto
Biologia computacional, Aminoácidos, Proteínas
Palavras-chave
Bioinformática
Citação
Departamento
Endereço externo
Avaliação
Revisão
Suplementado Por
Referenciado Por
Licença Creative Commons
Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso Aberto
