Taxallnomy: an extension of NCBI Taxonomy that produces a hierarchically complete taxonomic tree

Carregando...
Imagem de Miniatura

Data

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Minas Gerais

Descrição

Tipo

Artigo de periódico

Título alternativo

Taxallnomy: uma extensão da Taxonomia do NCBI que produz uma árvore taxonômica hierarquicamente completa

Primeiro orientador

Membros da banca

Resumo

Contexto: A Taxonomia do NCBI é a principal fonte taxonômica para diversas ferramentas e bancos de dados bioinformáticos, visto que todos os organismos com sequências depositadas no INSDC estão organizados em sua estrutura hierárquica. Apesar do uso e aplicação extensivos dessa fonte de dados, uma representação alternativa dos dados em formato de tabela facilitaria o uso da informação para o processamento de dados bioinformáticos. Para tanto, considerando que algumas categorias taxonômicas estão ausentes em certas linhagens, um algoritmo poderia propor nomes provisórios para todas as categorias taxonômicas. Resultados: Para solucionar esse problema, desenvolvemos um algoritmo que utiliza a estrutura de árvore da Taxonomia do NCBI e gera uma tabela taxonômica hierarquicamente completa, mantendo sua compatibilidade com a árvore original. Os procedimentos realizados pelo algoritmo consistem em tentar atribuir uma categoria taxonômica a um clado existente ou a um nó "sem categoria", quando possível, utilizando seu nome como parte do nome da categoria taxonômica criada (ex.: Ord_Ornithischia ) ou interpolando nós parentais quando necessário (ex.: Cla_of_Ornithischia ), ambos exemplos dados para a linhagem do dinossauro Brachylophosaurus . A nova estrutura hierárquica foi denominada Taxallnomy, pois contém nomes para todas as categorias taxonômicas e possui 41 níveis hierárquicos correspondentes às 41 categorias taxonômicas atualmente encontradas no banco de dados da Taxonomia do NCBI. A partir do Taxallnomy, os usuários podem obter a linhagem taxonômica completa com 41 nós de todos os táxons disponíveis no banco de dados da Taxonomia do NCBI, sem qualquer prejuízo às informações da árvore original. Neste trabalho, demonstramos sua aplicabilidade incorporando informações taxonômicas de uma categoria específica em uma árvore filogenética e produzindo perfis metagenômicos. Conclusão: A Taxallnomy aplica-se a quaisquer análises bioinformáticas que dependam de informações da Taxonomia do NCBI. A Taxallnomy é atualizada periodicamente, mas, com um script PERL distribuído, os usuários podem gerá-la localmente usando a Taxonomia do NCBI como entrada. Todos os recursos da Taxallnomy estão disponíveis em http://bioinfo.icb.ufmg.br/taxallnomy .

Abstract

Background: NCBI Taxonomy is the main taxonomic source for several bioinformatics tools and databases since all organisms with sequence accessions deposited on INSDC are organized in its hierarchical structure. Despite the extensive use and application of this data source, an alternative representation of data as a table would facilitate the use of information for processing bioinformatics data. To do so, since some taxonomic-ranks are missing in some lineages, an algorithm might propose provisional names for all taxonomic-ranks. Results: To address this issue, we developed an algorithm that takes the tree structure from NCBI Taxonomy and generates a hierarchically complete taxonomic table, maintaining its compatibility with the original tree. The procedures performed by the algorithm consist of attempting to assign a taxonomic-rank to an existing clade or “no rank” node when possible, using its name as part of the created taxonomic-rank name (e.g. Ord_Ornithischia) or interpolating parent nodes when needed (e.g. Cla_of_Ornithischia), both examples given for the dinosaur Brachylophosaurus lineage. The new hierarchical structure was named Taxallnomy because it contains names for all taxonomic-ranks, and it contains 41 hierarchical levels corresponding to the 41 taxonomic-ranks currently found in the NCBI Taxonomy database. From Taxallnomy, users can obtain the complete taxonomic lineage with 41 nodes of all taxa available in the NCBI Taxonomy database, without any hazard to the original tree information. In this work, we demonstrate its applicability by embedding taxonomic information of a specified rank into a phylogenetic tree and by producing metagenomics profiles. Conclusion: Taxallnomy applies to any bioinformatics analyses that depend on the information from NCBI Taxonomy. Taxallnomy is updated periodically but with a distributed PERL script users can generate it locally using NCBI Taxonomy as input. All Taxallnomy resources are available at http://bioinfo.icb.ufmg.br/taxallnomy.

Assunto

Classificação, Biologia computacional, Algoritmos de classificação

Palavras-chave

NCBI Taxonomy, Taxonomic rank, Taxonomic lineage, No rank, Linnaean system

Citação

Curso

Endereço externo

https://link.springer.com/article/10.1186/s12859-021-04304-3

Avaliação

Revisão

Suplementado Por

Referenciado Por