Algoritmos genéticos para identicação de sítios ativos em enzimas

Sandro Carvalho Izidoro

Use este identificador para citar ou linkar para este item: http://hdl.handle.net/1843/BUBD-A9NMYH

Tipo:	Tese de Doutorado
Título:	Algoritmos genéticos para identicação de sítios ativos em enzimas
Autor(es):	Sandro Carvalho Izidoro
Primeiro Orientador:	Gisele Lobo Pappa
Primeiro Coorientador:	Raquel Cardoso de Melo
Resumo:	Mais de 14 mil famílias de proteínas estão anotadas no Pfam (Protein Families Database), das quais cerca de 3.500 ainda têm suas funções desconhecidas. Testes experimentais são caros e demorados e, na sua ausência, estudos têm demonstrado que a função de uma proteína pode ser inferida com sucesso baseando-se similaridade da sequência ou da estrutura de uma proteína hipotética e proteínas de função conhecida. Uma maneira de predizer a função de uma proteína é através da busca dos sítios de ligação (binding sites). Sítios de ligação são regiões na superfície de uma enzima especialmente modeladas para interagir com outras moléculas. Devido à sua importância para a função da enzima, os aminoácidos do sítio ativo são mais conservados durante a evolução do que a sequência como um todo. Consequentemente, eles podem ser uma rica fonte de informações para a predição de função.Diversos métodos já foram propostos para identicar sítios ativos com base em templates. Porém, eles apresentam algumas limitações. Grande parte desses métodos não é capaz de lidar com mutações conservativas, onde enzimas com a mesma função podem variar em termos da composição dos aminoácidos do sítio ativo. Além disso, muitos deles não são capazes de identicar a cadeia ao qual um resíduo pertence ou restrigem a busca em termos de número de resíduos no template ou distâncias máximas entre o template e o sítio candidato.O principal objetivo desta tese é propor um novo método para a busca de sítios ativos basedos em templates utilizando algoritmos genéticos com base em dados estruturais. Para isso foi proposto o Genetic Active Site Search (GASS), um algoritmo genético modelado para utilizar informações estruturais de um sítio ativo template na busca de enzimas com sítios ativos similares. O método pode encontrar sítios ativos com resíduos em cadeias diferentes e é capaz de lidar com mutações conservativas, além de não impor quaisquer restrições quanto ao número de resíduos no sítio ativo e a distância entre eles. Os resultados do GASS foram comparados com os sítios catalíticos anotados no Catalytic Site Atlas (CSA) utilizando quatro diferentes conjuntos de dados. Quando comparado com outros métodos de busca de sítios catalíticos, os resultados mostraram que o GASS pôde identicar corretamente mais de 90% dos sítios pesquisados. Experimentos também foram realizados utilizando os dados de sítios de ligação dacompetição CASP 10 e, quando comparado com os 17 métodos participantes, o GASS apareceu em quarto lugar, embora não tenha sido inicialmente desenvolvido com este propósito.
Abstract:	Currently, 25% of proteins annotated in the Protein Families Database (Pfam) have their function unknown. Experimental tests are expensive and time-consuming, and research has shown that the function of a protein can be successfully inferred based on the sequence or structure similarity of a hypothetical function and other functions of known function.A way of predicting the function of a protein is to consider its binding sites. Binding sites are regions in the surface of an enzyme designed to interact with other molecules. Due to its importance to enzyme function, the residues in the active site are more conserved than the sequence as a whole, providing important information for function prediction. Hence, active sites are a rich source of information for protein function prediction.Many methods have been previously proposed to identify active sites based on similarity. However, they do present some limitations, such as not being capable of dealing with conservative mutations (which occur when enzymes with the same function dier in terms of active site residues composition), having diculties in assigning the active siteto a chain or restricting the number of residues in the template. The main goal of this thesis is to propose a new method for searching for activesites similar using genetic algorithms based on protein structural data, namely Genetic Active Site Search (GASS). The method is based on a genetic algorithm, modeled to use structural information from an active site template in the search for enzymes with similar active sites. The method can nd active sites with residues in dierent chains and is ableto handle conservative mutations, apart from not imposing any restrictions on the number of residues in the active site and the distance between them. GASS results were compared with catalytic sites noted in the Catalytic Site Atlas (CSA) using four dierent data sets. When compared to other search methods of catalytic sites, the results showed that GASS identied correctly over 90% of the surveyed sites. Experiments were also performed using data of binding sites from the competitionCASP 10, and when compared with the 17 participants methods, GASS appeared in fourth, regardless of not being initially developed with this purpose.
Assunto:	Domínio Catalítico Bioinformática Algoritmos genéticos Enzimas
Idioma:	Português
Editor:	Universidade Federal de Minas Gerais
Sigla da Instituição:	UFMG
Tipo de Acesso:	Acesso Aberto
URI:	http://hdl.handle.net/1843/BUBD-A9NMYH
Data do documento:	30-Mar-2015
Aparece nas coleções:	Teses de Doutorado

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
tese_sandro.pdf		24.2 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas