Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/BUOS-APTNCE
Type: Tese de Doutorado
Title: Detecção de subfamílias proteicas isofuncionais utilizando integração de dados e agrupamento espectral
Authors: Elisa Boari de Lima
First Advisor: Raquel Cardoso de Melo
First Co-advisor: Wagner Meira Junior
First Referee: Carlos Henrique da Silveira
Second Referee: Lucas Bleicher
Third Referee: Marcos Augusto dos Santos
metadata.dc.contributor.referee4: Cristiane Neri Nobre
Abstract: Apesar dos melhores esforços de pesquisa, uma quantidade substancial e crescente de proteínas ainda apresenta função desconhecida. À medida que novos genomas são sequenciados, a grande maioria das proteínas previstas apenas pode ser anotada computacionalmente, devido aos altos custos e dificuldadeda investigação experimental. Isso enfatiza a necessidade por métodos computacionais para determinar funções proteicas rápida e confiavelmente. No entanto, não há abordagens de larga escalacapazes de revelar as funções de todos os genes hipotéticos nos genomas já sequenciados. Esse objetivo só pode ser alcançado por meio de numerosos esforços de pesquisa, e o presente trabalho é umesforço computacional visando a dar um passo em direção a esse objetivo. Acredita-se que dividir uma família de proteínas em subtipos de mesma especificidade, que compartilham funções específicas incomuns à família proteica como um todo, seja um primeiro passopara reduzir a complexidade do problema de anotação de funções proteicas. Por isso, o propósito desta tese é a detecção de subfamílias isofuncionais em uma família de proteínas de função desconhecida,além da identificação dos resíduos responsáveis pela diferenciação entre elas. Para tanto, a similaridade entre pares de proteínas em relação a vários tipos de dados é estudada e interpretada como evidência de similaridade funcional. Dados são integrados usando programação genética e, então, fornecidos a um algoritmo de agrupamento espectral, que cria grupos de proteínas similares.A técnica proposta foi aplicada a famílias proteicas bem conhecidas, assim como a uma família de função desconhecida, e seus resultados foram comparados àqueles obtidos pelo ASMC, uma técnica similar da literatura. Resultados mostraram que a técnica proposta, totalmente automatizada, obteve grupos melhores que o ASMC para Nucleotidil Ciclases e Proteínas Cinases, além de resultados equivalentes para Serino Proteases e para a família DUF849, cujos grupos foram definidos com intervenção manual. Os grupos produzidos pela técnica proposta apresentaram grande correspondência com as subfamílias conhecidas, além de serem mais contrastantes do que aqueles produzidos pelo ASMC. Além disso, para as famílias cujas posições determinantes de especificidade são conhecidas, tais resíduos estavam entre os considerados pela técnica proposta como mais importantes paradiferenciar um determinado grupo. Os melhores resultados consistentemente envolveram múltiplos tipos de dados, confirmando a hipótese inicial de que similaridades segundo diferentes domínios doconhecimento podem ser usadas como evidências de similaridade funcional. As principais contribuições desta tese são a estratégia proposta para selecionar e integrar dados, assim como a capacidadede trabalhar com dados ruidosos ou incompletos; o uso de conhecimento de domínio para detectar subfamílias em uma família proteica com diferentes especificidades, reduzindo a complexidade do problema de caracterização funcional; e a identificação de resíduos responsáveis pela especificidade.
Abstract: Despite the best research efforts, a substantial and ever-increasing amount of predicted proteins still lack functional annotation. As increasingly more genomes are sequenced, the vast majority of proteinsmay only be annotated computationally, given experimental investigation is difficult, expensive, and time-consuming. This highlights the need for computational methods to determine protein functions quickly and reliably. However, no large-scale approaches currently exist capable of revealing the functions of all hypothetical genes in the already sequenced genomes. This goal can only be reached through numerous research efforts, and the work presented herein is a computational effort aiming totake a step toward that goal. We believe dividing a protein family into same-specificity subtypes, which share specific functions uncommon to the family as a whole, is a first step toward reducing the function annotation problems complexity. Hence, this works purpose is to detect isofunctional subfamilies inside a family of unknown function, as well as to identify residues responsible for subfamily differentiation. For this purpose, the similarity between protein pairs according to various data types is studied and interpreted as functional similarity evidence. Data are integrated using genetic programming and, then, provided to a spectral clustering algorithm, which creates clusters of similar proteins.Four case studies were performed, applying the proposed framework to well-known protein families and to a family of unknown function, and comparing its results to those obtained by ASMC, a similar method found in the literature. Results showed our fully automated technique obtained better clusters than ASMC for the nucleotidyl cyclases and protein kinases families, besides equivalent results for serine proteases and the DUF849 family, for which clusters were defined with manual intervention. Clusters produced by our framework showed great correspondence with the known subfamilies, besides being more contrasting than those produced by ASMC. Additionally, for the families whose specificity determining positions are known, such residues were among those our technique considered most important to differentiate a given group. Best results consistently involved multiple data types, thus confirming our initial hypothesis that similarities according to different knowledgedomains may be used as functional similarity evidence. Our main contributions are the proposed strategy for selecting and integrating data types, along with the ability to work with noisy and incomplete data; the use of domain knowledge for detecting isofunctional subfamilies in a protein family with different specificities, thus reducing the complexity of the experimental function characterization problem; and the identification of residues responsible for specificity.
Subject: Bioinformática
language: Português
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/BUOS-APTNCE
Issue Date: 29-Oct-2015
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
tese_elisa_boari_de_lima_2011695257.pdf6 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.