BeeNA: um pipeline automatizado para anotação e identificação de vírus de RNA

dc.creatorVinícius Castro Santos
dc.date.accessioned2025-04-09T18:23:50Z
dc.date.accessioned2025-09-08T23:03:14Z
dc.date.available2025-04-09T18:23:50Z
dc.date.issued2024-11-29
dc.description.abstractStudies on RNA viruses in various environments using RNA sequencing have been increasing, but the true diversity of the virosphere remains poorly understood. With the growing availability of public data in databases originated from metagenomics sequecing, new viruses have been discovered in both well- known and less explored organisms. Currently, the main pipelines for RNA virus identification and annotation, VirBot and VirID, face limitations due to their use of Hidden Markov Model (HMM) profiles and sequence similarity analysis, which result in false negatives. This study proposes an automated pipeline based on the Snakemake platform, combining the high-performance viral identification tool geNomad with the DIAMOND method for sequence similarity analysis. In tests with artificial samples, the pipeline achieved >80% sensitivity for species- level identification and >90% for family- and genus-level identifications. Compared to other strategies, VirBot was unable to identify any sample at the species level, achieving 64% sensitivity at the family level. BeeNA showed better performance with the Megahit and rnaSPAdes assemblers, while tools like coronaSPAdes were ineffective. The pipeline also allows metagenomic analyses of non-viral organisms, viral quantification, and automated confirmation of potential “new” species through phylogenetic analysis, despite limitations in identifying highly divergent viruses due to the use of Pfam pHMMs. Benchmarking with real metagenomic data allowed for the detection of organisms previously found and not found in original studies on microorganisms from bees and humans, demonstrating the pipeline’s potential for viral identification. However, to enhance species-level identification and RdRp detection for phylogenetic analysis, it is essential to calibrate geNomad and utilize more extensive HMM datasets, such as RVDB-prot.
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
dc.identifier.urihttps://hdl.handle.net/1843/81429
dc.languagepor
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Restrito
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/pt/
dc.subjectBioinformática
dc.subjectRNA-Seq
dc.subjectFilogenia
dc.subjectBenchmarking
dc.subject.otherRNA-seq
dc.subject.otherfilogenia
dc.subject.otherbenchmarking
dc.subject.othersnakemake
dc.titleBeeNA: um pipeline automatizado para anotação e identificação de vírus de RNA
dc.title.alternativeBeeNA: an automated pipeline for RNA virus annotation and identification
dc.typeDissertação de mestrado
local.contributor.advisor1Eric Roberto Guimarães Rocha Aguiar
local.contributor.advisor1Latteshttp://lattes.cnpq.br/7550994081863700
local.contributor.referee1Vagner de Souza Fonseca
local.contributor.referee1Rommel Thiago Juca Ramos
local.creator.Latteshttp://lattes.cnpq.br/9444818419806167
local.description.embargo2026-11-29
local.description.resumoEstudos sobre vírus de RNA em diversos ambientes, usando sequenciamento de RNA, têm crescido, mas a diversidade real da virosfera ainda é pouco conhecida. Com o aumento de dados públicos, é possível descobrir novos vírus tanto em organismos conhecidos quanto naqueles pouco explorados. Atualmente, os principais pipelines para identificação e anotação de vírus de RNA, VirBot e VirID, enfrentam limitações pelo uso de perfis de Modelo Oculto de Markov (HMM) e análise de similaridade, o que gera falsos-negativos. Este estudo propõe um pipeline automatizado baseado na plataforma Snakemake, que combina a ferramenta geNomad, com o método DIAMOND para análise de similaridade de sequências. Nos testes com amostras artificiais, o pipeline obteve > 80% de sensibilidade para identificação ao nível de espécie e > 90% nos níveis de família e gênero. Em comparação com outras estratégias, o VirBot não foi capaz de identificar nenhuma amostra ao nível de espécie, tendo 64% de sensibilidade ao nível de família. BeeNA mostrou melhor desempenho com os montadores Megahit e rnaSPAdes, enquanto ferramentas como coronaSPAdes não foram eficazes. O pipeline permite ainda análises metagenômicas de organismos não virais, quantificação viral e confirmação de possíveis “novos” vírus por meio de análise filogenética de forma automatizada, apesar de apresentar limitações na identificação de vírus muito divergentes pelo uso de pHMMs do Pfam. O benchmarking com dados reais de metagenômica permitiu registrar organismos conhecidos e outros ainda não descritos anteriormente pelos estudos originais com microrganismos de abelhas e humanos, demonstrando o potencial do pipeline na identificação viral. Contudo, ainda é preciso o uso de bancos de dados HMM mais abrangentes, como o RVDB-prot, para uma melhor identificação identificação de RdRps para análise filogenética.
local.identifier.orcidhttps://orcid.org/0000-0002-5418-7291
local.publisher.countryBrasil
local.publisher.departmentICB - INSTITUTO DE CIÊNCIAS BIOLOGICAS
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Bioinformatica

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Manuscrito_final.pdf
Tamanho:
982 B
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Plain Text
Descrição: