Key-residue-annotate: refocusing on putative key residues to estimate protein function
Carregando...
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Dissertação de mestrado
Título alternativo
Key-residue-annotate: refocando em residues chave putativos para estimar a função de proteínas
Primeiro orientador
Membros da banca
José Miguel Ortega
Joicymara Santos Xavier
Joicymara Santos Xavier
Resumo
The deluge of protein sequence data, fueled by advances in high-throughput sequencing and
mass spectrometry, has long since outpaced the scientific capacity to characterize protein
function through traditional experiments. To bridge this gap, computational methods often
leverage functional classification systems such as Gene Ontology (GO) to transfer knowledge
from well-characterized proteins to the vast majority with little to no annotation. However, GO
hierarchies may lead to information loss due to general term overrepresentation. Also, terms
do not directly relate to specific positions in protein sequences. Meanwhile, protein family
models (PFMs) support many well-established algorithms and databases, such as the HMMER
suite and Pfam, supplying users with general predicted function, but not pinpointing functional
residues. Nonetheless, it is possible to increase resolution through exploration of PFMs’
Multiple Sequence Alignments (MSA), not only bringing greater confidence to predictions, but
also enriching understanding of protein family evolution and functional conservation. It would
also be possible to classify novel proteins relative to functional gain or loss. Therefore, we
developed a Python pipeline, Key-Residue-Annotate (KRA), to analyze genomic-scale batches
of protein sequences, predicting function and highlighting residues, aiming for employment in
the annotation and manual deposition of novel proteins. Accordingly, we employed the
PyHMMER module, a Python interface to HMMER3, to classify proteins in families and obtain
alignments of them with sequences from the seed alignment for their respective family. Next, a
customizable InterProScan run, a common step in manual annotation, is leveraged to assign
GO terms to input sequences. Finally, we explore the alignment in transferring annotations
from seed sequences to novel ones. Annotations stem from the UniProtKB and BioLiP2
databases, the latter being a biologically relevant protein-ligand interactions database. For
validation, reference proteomes for Zika, SARS-CoV-2, Chlorovirus heliozoae, E. coli and H.
sapiens were analyzed, comparing KRA positional annotations to those present in UniProt per
sequence. It was observed that at least 50% of sequences from proteomes besides that of C.
heliozoae had some agreement between annotations. The latter, however, revealed 2952
residues of possible interest not present in UniProt, with more than 2000 being related to ligand
interactions. A total of 400 protein-ligand structures deposited after the annotations acquisition
date were also investigated to evaluate accordance with KRA predictions for active and binding
sites. We found that about 25% of residues interacting with ligands were predicted correctly,
with approximately 20% of ligands having at least one residue predicted. Finally, around 6%
of structures had at least one residue predicted for each of its ligands. In summary, the
pipeline’s utility is made evident for the initial exploration of novel proteomes, underscoring
functional residues even for understudied organisms like C. heliozoae. Also, correspondence
with functional residues from structures that are not present in the source databases
demonstrates the potential of this approach.
Abstract
O dilúvio de dados de sequências de proteínas, alimentado pelos avanços no sequenciamento
de alto rendimento e espectrometria de massas, há muito ultrapassou a capacidade científica de
caracterização da função de proteínas através de experimentos tradicionais. Para preencher essa
lacuna, métodos computacionais frequentemente aproveitam-se de sistemas de classificação
funcional como o Gene Ontology (GO) para transferir conhecimento de proteínas bem-
caracterizadas para a grande maioria com pouca ou nenhuma anotação. Todavia, as hierarquias
GO podem levar à perda de informação pela sobrerrepresentação de termos gerais. Além disso,
os termos não se relacionam diretamente com posições específicas nas sequências de proteínas.
Enquanto isso, modelos de famílias de proteínas (PFMs) sustentam muitos algoritmos e bancos
de dados bem-estabelecidos, como o pacote HMMER e o Pfam, fornecendo aos usuários uma
função geral predita, mas não apontando resíduos funcionais. Contudo, é possível aumentar a
resolução pela exploração dos Alinhamentos Múltiplos de Sequências (MSA) implicados nos
PFMs, não só trazendo maior confiança às predições, mas também enriquecendo o
entendimento da evolução de famílias de proteínas e conservação funcional. Também seria
possível classificar proteínas inéditas quanto a ganho ou perda de função. Portanto,
desenvolvemos uma pipeline Python, Key-Residue-Annotate (KRA), para analisar lotes de
sequências proteicas em escala genômica, predizendo a função e ressaltando resíduos, visando
seu emprego na anotação e deposição manual de proteínas inéditas. Para tanto, empregamos o
pacote PyHMMER, uma interface Python com o HMMER3, para classificar as proteínas em
famílias e obter alinhamentos destas com as sequências do alinhamento seed da respectiva
família. Seguimos com uma rodada customizável do InterProScan, etapa comum na anotação
manual, aproveitada para assinalar termos GO às sequências de entrada. Finalmente,
exploramos o alinhamento na transferência de anotações das sequências seed para as inéditas.
As anotações são oriundas dos bancos de dados UniProtKB e do BioLiP2, este último um banco
de dados de interações proteína-ligante biologicamente relevantes. Para validação, os
proteomas de referência para Zika, SARS-CoV-2, Chlorovirus heliozoae, E. coli e H. sapiens
foram analisados, comparando as anotações posicionais KRA com as presentes no UniProt para
cada sequência. Observamos que pelo menos 50% das sequências dos proteomas que não o de
C. heliozoae tiveram alguma concordância entre as anotações. Este último, contudo, revelou
2952 resíduos de possível interesse não presentes no UniProt, com mais de 2000 se
relacionando com interações com ligantes. Também foram investigadas 400 estruturas proteína-
ligante depositadas após a data de aquisição das anotações para avaliar se concordariam com
predições KRA para sítios ativos ou de ligação. Constatamos que cerca de 25% dos resíduos
que interagem com ligantes foram preditos corretamente, com aproximadamente 20% dos
ligantes tendo pelo menos um resíduo predito. Finalmente, por volta de 6% das estruturas
tiveram pelo menos um resíduo predito para cada um dos ligantes. Em suma, evidencia-se a
utilidade da pipeline para a exploração inicial de proteomas inéditos, apontando resíduos
funcionais mesmo para organismos pouco estudados como C. heliozoae. Além disso, a
correspondência com resíduos funcionais em estruturas não presentes nos bancos de dados
demonstra o potencial da abordagem.
Assunto
Bioinformática, Anotação de Sequência Molecular, Análise de Sequeência de Proteína, Modelos Ocultos de Markov
Palavras-chave
Protein functional annotation, Amino acid residues, Python pipeline, HMMER, Protein-ligand interaction
Citação
Departamento
Endereço externo
Avaliação
Revisão
Suplementado Por
Referenciado Por
Licença Creative Commons
Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso Restrito
