Taxallnomy: an extension of NCBI Taxonomy that produces a hierarchically complete taxonomic tree

dc.creatorTetsu Sakamoto
dc.creatorJosé Miguel Ortega
dc.date.accessioned2026-04-02T20:04:33Z
dc.date.issued2021
dc.description.abstractBackground: NCBI Taxonomy is the main taxonomic source for several bioinformatics tools and databases since all organisms with sequence accessions deposited on INSDC are organized in its hierarchical structure. Despite the extensive use and application of this data source, an alternative representation of data as a table would facilitate the use of information for processing bioinformatics data. To do so, since some taxonomic-ranks are missing in some lineages, an algorithm might propose provisional names for all taxonomic-ranks. Results: To address this issue, we developed an algorithm that takes the tree structure from NCBI Taxonomy and generates a hierarchically complete taxonomic table, maintaining its compatibility with the original tree. The procedures performed by the algorithm consist of attempting to assign a taxonomic-rank to an existing clade or “no rank” node when possible, using its name as part of the created taxonomic-rank name (e.g. Ord_Ornithischia) or interpolating parent nodes when needed (e.g. Cla_of_Ornithischia), both examples given for the dinosaur Brachylophosaurus lineage. The new hierarchical structure was named Taxallnomy because it contains names for all taxonomic-ranks, and it contains 41 hierarchical levels corresponding to the 41 taxonomic-ranks currently found in the NCBI Taxonomy database. From Taxallnomy, users can obtain the complete taxonomic lineage with 41 nodes of all taxa available in the NCBI Taxonomy database, without any hazard to the original tree information. In this work, we demonstrate its applicability by embedding taxonomic information of a specified rank into a phylogenetic tree and by producing metagenomics profiles. Conclusion: Taxallnomy applies to any bioinformatics analyses that depend on the information from NCBI Taxonomy. Taxallnomy is updated periodically but with a distributed PERL script users can generate it locally using NCBI Taxonomy as input. All Taxallnomy resources are available at http://bioinfo.icb.ufmg.br/taxallnomy.
dc.identifier.doihttp://dx.doi.org/10.1186/s12859-021-04304-3
dc.identifier.issn1471-2105
dc.identifier.urihttps://hdl.handle.net/1843/2341
dc.languageInglêspt_BR
dc.publisherUniversidade Federal de Minas Gerais
dc.relation.ispartofBMC Bioinformatics
dc.rightsAcesso aberto
dc.subjectClassificação
dc.subjectBiologia computacional
dc.subjectAlgoritmos de classificação
dc.subject.otherNCBI Taxonomy
dc.subject.otherTaxonomic rank
dc.subject.otherTaxonomic lineage
dc.subject.otherNo rank
dc.subject.otherLinnaean system
dc.titleTaxallnomy: an extension of NCBI Taxonomy that produces a hierarchically complete taxonomic tree
dc.title.alternativeTaxallnomy: uma extensão da Taxonomia do NCBI que produz uma árvore taxonômica hierarquicamente completa
dc.typeArtigo de periódico
local.citation.epage23
local.citation.spage1
local.citation.volume22
local.description.resumoContexto: A Taxonomia do NCBI é a principal fonte taxonômica para diversas ferramentas e bancos de dados bioinformáticos, visto que todos os organismos com sequências depositadas no INSDC estão organizados em sua estrutura hierárquica. Apesar do uso e aplicação extensivos dessa fonte de dados, uma representação alternativa dos dados em formato de tabela facilitaria o uso da informação para o processamento de dados bioinformáticos. Para tanto, considerando que algumas categorias taxonômicas estão ausentes em certas linhagens, um algoritmo poderia propor nomes provisórios para todas as categorias taxonômicas. Resultados: Para solucionar esse problema, desenvolvemos um algoritmo que utiliza a estrutura de árvore da Taxonomia do NCBI e gera uma tabela taxonômica hierarquicamente completa, mantendo sua compatibilidade com a árvore original. Os procedimentos realizados pelo algoritmo consistem em tentar atribuir uma categoria taxonômica a um clado existente ou a um nó "sem categoria", quando possível, utilizando seu nome como parte do nome da categoria taxonômica criada (ex.: Ord_Ornithischia ) ou interpolando nós parentais quando necessário (ex.: Cla_of_Ornithischia ), ambos exemplos dados para a linhagem do dinossauro Brachylophosaurus . A nova estrutura hierárquica foi denominada Taxallnomy, pois contém nomes para todas as categorias taxonômicas e possui 41 níveis hierárquicos correspondentes às 41 categorias taxonômicas atualmente encontradas no banco de dados da Taxonomia do NCBI. A partir do Taxallnomy, os usuários podem obter a linhagem taxonômica completa com 41 nós de todos os táxons disponíveis no banco de dados da Taxonomia do NCBI, sem qualquer prejuízo às informações da árvore original. Neste trabalho, demonstramos sua aplicabilidade incorporando informações taxonômicas de uma categoria específica em uma árvore filogenética e produzindo perfis metagenômicos. Conclusão: A Taxallnomy aplica-se a quaisquer análises bioinformáticas que dependam de informações da Taxonomia do NCBI. A Taxallnomy é atualizada periodicamente, mas, com um script PERL distribuído, os usuários podem gerá-la localmente usando a Taxonomia do NCBI como entrada. Todos os recursos da Taxallnomy estão disponíveis em http://bioinfo.icb.ufmg.br/taxallnomy .
local.publisher.countryBrasil
local.publisher.departmentICB - DEPARTAMENTO DE BIOQUÍMICA E IMUNOLOGIA
local.publisher.initialsUFMG
local.subject.cnpqCIENCIAS BIOLOGICAS
local.url.externahttps://link.springer.com/article/10.1186/s12859-021-04304-3

Arquivos

Pacote original

Agora exibindo 1 - 2 de 2
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.15 KB
Formato:
Plain Text
Descrição:
License file
Carregando...
Imagem de Miniatura
Nome:
Taxallnomy an extension of NCBI Taxonomy that produces a hierarchically complete taxonomic tree.pdf
Tamanho:
560.89 KB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Item-specific license agreed to upon submission
Descrição: