BeeNA: um pipeline automatizado para anotação e identificação de vírus de RNA

Vinícius Castro Santos

BeeNA: um pipeline automatizado para anotação e identificação de vírus de RNA

dc.creator	Vinícius Castro Santos
dc.date.accessioned	2025-04-09T18:23:50Z
dc.date.accessioned	2025-09-08T23:03:14Z
dc.date.available	2025-04-09T18:23:50Z
dc.date.issued	2024-11-29
dc.description.abstract	Studies on RNA viruses in various environments using RNA sequencing have been increasing, but the true diversity of the virosphere remains poorly understood. With the growing availability of public data in databases originated from metagenomics sequecing, new viruses have been discovered in both well- known and less explored organisms. Currently, the main pipelines for RNA virus identification and annotation, VirBot and VirID, face limitations due to their use of Hidden Markov Model (HMM) profiles and sequence similarity analysis, which result in false negatives. This study proposes an automated pipeline based on the Snakemake platform, combining the high-performance viral identification tool geNomad with the DIAMOND method for sequence similarity analysis. In tests with artificial samples, the pipeline achieved >80% sensitivity for species- level identification and >90% for family- and genus-level identifications. Compared to other strategies, VirBot was unable to identify any sample at the species level, achieving 64% sensitivity at the family level. BeeNA showed better performance with the Megahit and rnaSPAdes assemblers, while tools like coronaSPAdes were ineffective. The pipeline also allows metagenomic analyses of non-viral organisms, viral quantification, and automated confirmation of potential “new” species through phylogenetic analysis, despite limitations in identifying highly divergent viruses due to the use of Pfam pHMMs. Benchmarking with real metagenomic data allowed for the detection of organisms previously found and not found in original studies on microorganisms from bees and humans, demonstrating the pipeline’s potential for viral identification. However, to enhance species-level identification and RdRp detection for phylogenetic analysis, it is essential to calibrate geNomad and utilize more extensive HMM datasets, such as RVDB-prot.
dc.description.sponsorship	CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
dc.identifier.uri	https://hdl.handle.net/1843/81429
dc.language	por
dc.publisher	Universidade Federal de Minas Gerais
dc.rights	Acesso Restrito
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
dc.subject	Bioinformática
dc.subject	RNA-Seq
dc.subject	Filogenia
dc.subject	Benchmarking
dc.subject.other	RNA-seq
dc.subject.other	filogenia
dc.subject.other	benchmarking
dc.subject.other	snakemake
dc.title	BeeNA: um pipeline automatizado para anotação e identificação de vírus de RNA
dc.title.alternative	BeeNA: an automated pipeline for RNA virus annotation and identification
dc.type	Dissertação de mestrado
local.contributor.advisor1	Eric Roberto Guimarães Rocha Aguiar
local.contributor.advisor1Lattes	http://lattes.cnpq.br/7550994081863700
local.contributor.referee1	Vagner de Souza Fonseca
local.contributor.referee1	Rommel Thiago Juca Ramos
local.creator.Lattes	http://lattes.cnpq.br/9444818419806167
local.description.embargo	2026-11-29
local.description.resumo	Estudos sobre vírus de RNA em diversos ambientes, usando sequenciamento de RNA, têm crescido, mas a diversidade real da virosfera ainda é pouco conhecida. Com o aumento de dados públicos, é possível descobrir novos vírus tanto em organismos conhecidos quanto naqueles pouco explorados. Atualmente, os principais pipelines para identificação e anotação de vírus de RNA, VirBot e VirID, enfrentam limitações pelo uso de perfis de Modelo Oculto de Markov (HMM) e análise de similaridade, o que gera falsos-negativos. Este estudo propõe um pipeline automatizado baseado na plataforma Snakemake, que combina a ferramenta geNomad, com o método DIAMOND para análise de similaridade de sequências. Nos testes com amostras artificiais, o pipeline obteve > 80% de sensibilidade para identificação ao nível de espécie e > 90% nos níveis de família e gênero. Em comparação com outras estratégias, o VirBot não foi capaz de identificar nenhuma amostra ao nível de espécie, tendo 64% de sensibilidade ao nível de família. BeeNA mostrou melhor desempenho com os montadores Megahit e rnaSPAdes, enquanto ferramentas como coronaSPAdes não foram eficazes. O pipeline permite ainda análises metagenômicas de organismos não virais, quantificação viral e confirmação de possíveis “novos” vírus por meio de análise filogenética de forma automatizada, apesar de apresentar limitações na identificação de vírus muito divergentes pelo uso de pHMMs do Pfam. O benchmarking com dados reais de metagenômica permitiu registrar organismos conhecidos e outros ainda não descritos anteriormente pelos estudos originais com microrganismos de abelhas e humanos, demonstrando o potencial do pipeline na identificação viral. Contudo, ainda é preciso o uso de bancos de dados HMM mais abrangentes, como o RVDB-prot, para uma melhor identificação identificação de RdRps para análise filogenética.
local.identifier.orcid	https://orcid.org/0000-0002-5418-7291
local.publisher.country	Brasil
local.publisher.department	ICB - INSTITUTO DE CIÊNCIAS BIOLOGICAS
local.publisher.initials	UFMG
local.publisher.program	Programa de Pós-Graduação em Bioinformatica

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: Manuscrito_final.pdf
Tamanho:: 982 B
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.07 KB
Formato:: Plain Text
Descrição:

Baixar

Coleções

Pós-Graduação em Bioinformática - Dissertações