Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/35089
Type: Dissertação
Title: Efeitos da atribuição de pesos a sequências sobre as frequências de aminoácidos em alinhamentos múltiplos de sequências – aplicação em análises de conservação e correlação entre resíduos
Authors: Lucas Carrijo de Oliveira
First Advisor: Lucas Bleicher
Abstract: Analisando um alinhamento múltiplo de sequências ao nível de resíduos, além das posições conservadas existem outros padrões indicativos de importância funcional que refletem divergência funcional dentro de uma família em decorrência de duplicações gênicas. Em famílias de proteínas homólogas que apresentam subfamílias com especificidades funcionais distintas, algumas posições podem apresentar-se conservadas apenas em uma subfamília particular, ou o aminoácido conservado pode ser diferente para cada subfamília. Isso sugere que seu papel funcional desse resíduo relaciona-se não com com a função global da família, mas sim com especificidades funcionais daquele grupo. Nesses casos, é razoável que tais especificidades não sejam determinadas pela presença de um único resíduo, mas sim por um grupo de resíduos, e esse grupo irá emergir de análises de correlação entre resíduos desde que um número suficiente de proteínas apresentem as mesmas especificidades. Entretanto, algumas famílias de proteínas apresentam subfamílias pouco representadas em número de sequências nos alinhamentos. Ao mesmo tempo, estes costumam vir repletos de sequências redundantes, muitas vezes mutantes ou variantes da mesma sequência, oriundas principalmente de organismos modelo. Essa redundância nos alinhamentos acaba por enviesar análises com caráter estatístico, como são os métodos de correlação. Nesse sentido, o presente trabalho tem por objetivo comparar os efeitos de abordagens distintas que visam a diminuição da redundância em alinhamentos múltiplos de sequências: a atribuição de pesos a sequências e os filtros por identidade máxima. Além disso, o presente trabalho também propõe abordagens para tornar os cálculos de correlação compatíveis com o a atribuição de pesos de sequências, a fim de aperfeiçoar análises de conservação e correlação entre resíduos. A atribuição de pesos a sequências foi capaz de destacar as frequências de aminoácidos específicos de subfamílias pouco amostradas, ao mesmo tempo em que diminuía as frequências de aminoácidos presentes em sequências redundantes. Os cálculos de correlação adaptados ao uso de pesos foram capazes de detectar essas diferenças, oferecendo uma boa alternativa para análises de correlação em alinhamentos pouco representativos da diversidade de proteínas de fato existente na natureza.
Abstract: Analysing a multiple sequece alignment at the residue level, apart from the conserved positions, there are other patterns that are also indicative of functional importance and reflect functional divergence within a homologous protein family due to gene duplication. In families that have subfamilies with distinct functional specificities, some positions can be conserved only in a particular subfamily, or the conserved amino acid can be different for each of the subfamilies. This suggests that the role of this residue relates not to the global function of the family, but to functional specificities of that group. In these cases, it is reasonable that such specificities are not determined by the presence of a single residue, but by a group of residues, and this group will emerge from residue correlation analysis since a sufficient amount of proteins show the same specificities. However, some protein families have subfamilies less represented in terms of amount of sequences in the alignments. Meantime, this alignments use to come full of redundant sequences, many times mutants or variants of the same sequence, originary mainly from model organisms. This redundancy in the alignments tend to introduce bias to analysis with a statistical mean like the correlation methods. In this way, the present work has as objective to compare the effects of distinct approaches aiming the decreasing of redundancy in multiple sequence alignments: sequence weighting and filtering by maximum identity. Besides, this work also proposes approaches to make the correlation calculations compatible with sequence weighting, in order to improve analisys of residue conservation and correlation. Sequence weighting was capable of highlighting frequencies of amino acids specific of less sampled subfamilies, while decreasing the frequencies of amino acids present in redundant sequences. The adapted calculations were capable of detecting such differences, providing a good alternative to conservation and correlation analisys in alignments that are less representative of the actual protein diversity existent in nature.
Subject: Biologia computacional
Aminoácidos
Proteínas
language: por
metadata.dc.publisher.country: Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.department: ICB - INSTITUTO DE CIÊNCIAS BIOLOGICAS
metadata.dc.publisher.program: Programa de Pós-Graduação em Bioinformatica
Rights: Acesso Aberto
metadata.dc.rights.uri: http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
URI: http://hdl.handle.net/1843/35089
Issue Date: 30-Jun-2016
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
Dissertacao_Lucas_Carrijo.pdf2.41 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons