Key-residue-annotate: refocusing on putative key residues to estimate protein function
| dc.creator | Eduardo Horta Santos | |
| dc.date.accessioned | 2025-08-11T14:53:26Z | |
| dc.date.accessioned | 2025-09-09T01:17:30Z | |
| dc.date.available | 2025-08-11T14:53:26Z | |
| dc.date.issued | 2025-06-17 | |
| dc.description.abstract | O dilúvio de dados de sequências de proteínas, alimentado pelos avanços no sequenciamento de alto rendimento e espectrometria de massas, há muito ultrapassou a capacidade científica de caracterização da função de proteínas através de experimentos tradicionais. Para preencher essa lacuna, métodos computacionais frequentemente aproveitam-se de sistemas de classificação funcional como o Gene Ontology (GO) para transferir conhecimento de proteínas bem- caracterizadas para a grande maioria com pouca ou nenhuma anotação. Todavia, as hierarquias GO podem levar à perda de informação pela sobrerrepresentação de termos gerais. Além disso, os termos não se relacionam diretamente com posições específicas nas sequências de proteínas. Enquanto isso, modelos de famílias de proteínas (PFMs) sustentam muitos algoritmos e bancos de dados bem-estabelecidos, como o pacote HMMER e o Pfam, fornecendo aos usuários uma função geral predita, mas não apontando resíduos funcionais. Contudo, é possível aumentar a resolução pela exploração dos Alinhamentos Múltiplos de Sequências (MSA) implicados nos PFMs, não só trazendo maior confiança às predições, mas também enriquecendo o entendimento da evolução de famílias de proteínas e conservação funcional. Também seria possível classificar proteínas inéditas quanto a ganho ou perda de função. Portanto, desenvolvemos uma pipeline Python, Key-Residue-Annotate (KRA), para analisar lotes de sequências proteicas em escala genômica, predizendo a função e ressaltando resíduos, visando seu emprego na anotação e deposição manual de proteínas inéditas. Para tanto, empregamos o pacote PyHMMER, uma interface Python com o HMMER3, para classificar as proteínas em famílias e obter alinhamentos destas com as sequências do alinhamento seed da respectiva família. Seguimos com uma rodada customizável do InterProScan, etapa comum na anotação manual, aproveitada para assinalar termos GO às sequências de entrada. Finalmente, exploramos o alinhamento na transferência de anotações das sequências seed para as inéditas. As anotações são oriundas dos bancos de dados UniProtKB e do BioLiP2, este último um banco de dados de interações proteína-ligante biologicamente relevantes. Para validação, os proteomas de referência para Zika, SARS-CoV-2, Chlorovirus heliozoae, E. coli e H. sapiens foram analisados, comparando as anotações posicionais KRA com as presentes no UniProt para cada sequência. Observamos que pelo menos 50% das sequências dos proteomas que não o de C. heliozoae tiveram alguma concordância entre as anotações. Este último, contudo, revelou 2952 resíduos de possível interesse não presentes no UniProt, com mais de 2000 se relacionando com interações com ligantes. Também foram investigadas 400 estruturas proteína- ligante depositadas após a data de aquisição das anotações para avaliar se concordariam com predições KRA para sítios ativos ou de ligação. Constatamos que cerca de 25% dos resíduos que interagem com ligantes foram preditos corretamente, com aproximadamente 20% dos ligantes tendo pelo menos um resíduo predito. Finalmente, por volta de 6% das estruturas tiveram pelo menos um resíduo predito para cada um dos ligantes. Em suma, evidencia-se a utilidade da pipeline para a exploração inicial de proteomas inéditos, apontando resíduos funcionais mesmo para organismos pouco estudados como C. heliozoae. Além disso, a correspondência com resíduos funcionais em estruturas não presentes nos bancos de dados demonstra o potencial da abordagem. | |
| dc.description.sponsorship | CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior | |
| dc.identifier.uri | https://hdl.handle.net/1843/84278 | |
| dc.language | eng | |
| dc.publisher | Universidade Federal de Minas Gerais | |
| dc.rights | Acesso Restrito | |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/pt/ | |
| dc.subject | Bioinformática | |
| dc.subject | Anotação de Sequência Molecular | |
| dc.subject | Análise de Sequeência de Proteína | |
| dc.subject | Modelos Ocultos de Markov | |
| dc.subject.other | Protein functional annotation | |
| dc.subject.other | Amino acid residues | |
| dc.subject.other | Python pipeline | |
| dc.subject.other | HMMER | |
| dc.subject.other | Protein-ligand interaction | |
| dc.title | Key-residue-annotate: refocusing on putative key residues to estimate protein function | |
| dc.title.alternative | Key-residue-annotate: refocando em residues chave putativos para estimar a função de proteínas | |
| dc.type | Dissertação de mestrado | |
| local.contributor.advisor-co1 | Néli José da Fonseca Júnior | |
| local.contributor.advisor-co1 | Marcelo Querino Lima Afonso | |
| local.contributor.advisor1 | Lucas Bleicher | |
| local.contributor.advisor1Lattes | http://lattes.cnpq.br/1342208759733891 | |
| local.contributor.referee1 | José Miguel Ortega | |
| local.contributor.referee1 | Joicymara Santos Xavier | |
| local.creator.Lattes | http://lattes.cnpq.br/4056750787927119 | |
| local.description.embargo | 2027-06-17 | |
| local.description.resumo | The deluge of protein sequence data, fueled by advances in high-throughput sequencing and mass spectrometry, has long since outpaced the scientific capacity to characterize protein function through traditional experiments. To bridge this gap, computational methods often leverage functional classification systems such as Gene Ontology (GO) to transfer knowledge from well-characterized proteins to the vast majority with little to no annotation. However, GO hierarchies may lead to information loss due to general term overrepresentation. Also, terms do not directly relate to specific positions in protein sequences. Meanwhile, protein family models (PFMs) support many well-established algorithms and databases, such as the HMMER suite and Pfam, supplying users with general predicted function, but not pinpointing functional residues. Nonetheless, it is possible to increase resolution through exploration of PFMs’ Multiple Sequence Alignments (MSA), not only bringing greater confidence to predictions, but also enriching understanding of protein family evolution and functional conservation. It would also be possible to classify novel proteins relative to functional gain or loss. Therefore, we developed a Python pipeline, Key-Residue-Annotate (KRA), to analyze genomic-scale batches of protein sequences, predicting function and highlighting residues, aiming for employment in the annotation and manual deposition of novel proteins. Accordingly, we employed the PyHMMER module, a Python interface to HMMER3, to classify proteins in families and obtain alignments of them with sequences from the seed alignment for their respective family. Next, a customizable InterProScan run, a common step in manual annotation, is leveraged to assign GO terms to input sequences. Finally, we explore the alignment in transferring annotations from seed sequences to novel ones. Annotations stem from the UniProtKB and BioLiP2 databases, the latter being a biologically relevant protein-ligand interactions database. For validation, reference proteomes for Zika, SARS-CoV-2, Chlorovirus heliozoae, E. coli and H. sapiens were analyzed, comparing KRA positional annotations to those present in UniProt per sequence. It was observed that at least 50% of sequences from proteomes besides that of C. heliozoae had some agreement between annotations. The latter, however, revealed 2952 residues of possible interest not present in UniProt, with more than 2000 being related to ligand interactions. A total of 400 protein-ligand structures deposited after the annotations acquisition date were also investigated to evaluate accordance with KRA predictions for active and binding sites. We found that about 25% of residues interacting with ligands were predicted correctly, with approximately 20% of ligands having at least one residue predicted. Finally, around 6% of structures had at least one residue predicted for each of its ligands. In summary, the pipeline’s utility is made evident for the initial exploration of novel proteomes, underscoring functional residues even for understudied organisms like C. heliozoae. Also, correspondence with functional residues from structures that are not present in the source databases demonstrates the potential of this approach. | |
| local.identifier.orcid | https://orcid.org/0000-0002-0445-3563 | |
| local.publisher.country | Brasil | |
| local.publisher.department | ICB - INSTITUTO DE CIÊNCIAS BIOLOGICAS | |
| local.publisher.initials | UFMG | |
| local.publisher.program | Programa de Pós-Graduação em Bioinformatica |