BeeNA: um pipeline automatizado para anotação e identificação de vírus de RNA

Carregando...
Imagem de Miniatura

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Minas Gerais

Descrição

Tipo

Dissertação de mestrado

Título alternativo

BeeNA: an automated pipeline for RNA virus annotation and identification

Membros da banca

Vagner de Souza Fonseca
Rommel Thiago Juca Ramos

Resumo

Estudos sobre vírus de RNA em diversos ambientes, usando sequenciamento de RNA, têm crescido, mas a diversidade real da virosfera ainda é pouco conhecida. Com o aumento de dados públicos, é possível descobrir novos vírus tanto em organismos conhecidos quanto naqueles pouco explorados. Atualmente, os principais pipelines para identificação e anotação de vírus de RNA, VirBot e VirID, enfrentam limitações pelo uso de perfis de Modelo Oculto de Markov (HMM) e análise de similaridade, o que gera falsos-negativos. Este estudo propõe um pipeline automatizado baseado na plataforma Snakemake, que combina a ferramenta geNomad, com o método DIAMOND para análise de similaridade de sequências. Nos testes com amostras artificiais, o pipeline obteve > 80% de sensibilidade para identificação ao nível de espécie e > 90% nos níveis de família e gênero. Em comparação com outras estratégias, o VirBot não foi capaz de identificar nenhuma amostra ao nível de espécie, tendo 64% de sensibilidade ao nível de família. BeeNA mostrou melhor desempenho com os montadores Megahit e rnaSPAdes, enquanto ferramentas como coronaSPAdes não foram eficazes. O pipeline permite ainda análises metagenômicas de organismos não virais, quantificação viral e confirmação de possíveis “novos” vírus por meio de análise filogenética de forma automatizada, apesar de apresentar limitações na identificação de vírus muito divergentes pelo uso de pHMMs do Pfam. O benchmarking com dados reais de metagenômica permitiu registrar organismos conhecidos e outros ainda não descritos anteriormente pelos estudos originais com microrganismos de abelhas e humanos, demonstrando o potencial do pipeline na identificação viral. Contudo, ainda é preciso o uso de bancos de dados HMM mais abrangentes, como o RVDB-prot, para uma melhor identificação identificação de RdRps para análise filogenética.

Abstract

Studies on RNA viruses in various environments using RNA sequencing have been increasing, but the true diversity of the virosphere remains poorly understood. With the growing availability of public data in databases originated from metagenomics sequecing, new viruses have been discovered in both well- known and less explored organisms. Currently, the main pipelines for RNA virus identification and annotation, VirBot and VirID, face limitations due to their use of Hidden Markov Model (HMM) profiles and sequence similarity analysis, which result in false negatives. This study proposes an automated pipeline based on the Snakemake platform, combining the high-performance viral identification tool geNomad with the DIAMOND method for sequence similarity analysis. In tests with artificial samples, the pipeline achieved >80% sensitivity for species- level identification and >90% for family- and genus-level identifications. Compared to other strategies, VirBot was unable to identify any sample at the species level, achieving 64% sensitivity at the family level. BeeNA showed better performance with the Megahit and rnaSPAdes assemblers, while tools like coronaSPAdes were ineffective. The pipeline also allows metagenomic analyses of non-viral organisms, viral quantification, and automated confirmation of potential “new” species through phylogenetic analysis, despite limitations in identifying highly divergent viruses due to the use of Pfam pHMMs. Benchmarking with real metagenomic data allowed for the detection of organisms previously found and not found in original studies on microorganisms from bees and humans, demonstrating the pipeline’s potential for viral identification. However, to enhance species-level identification and RdRp detection for phylogenetic analysis, it is essential to calibrate geNomad and utilize more extensive HMM datasets, such as RVDB-prot.

Assunto

Bioinformática, RNA-Seq, Filogenia, Benchmarking

Palavras-chave

RNA-seq, filogenia, benchmarking, snakemake

Citação

Endereço externo

Avaliação

Revisão

Suplementado Por

Referenciado Por

Licença Creative Commons

Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso Restrito