Corazon: a web server for data normalization and unsupervised clustering based on expression profiles

dc.creatorThaís Ramos
dc.creatorVinicius Maracaja-Coutinho
dc.creatorJosé Miguel Ortega
dc.creatorThaís Gaudencio do Rêgo
dc.date.accessioned2026-04-01T23:37:28Z
dc.date.issued2020
dc.description.abstractObjective: Data normalization and clustering are mandatory steps in gene expression and downstream analyses, respectively. However, user-friendly implementations of these methodologies are available exclusively under expensive licensing agreements, or in stand-alone scripts developed, reflecting on a great obstacle for users with less computational skills. Results: We developed an online tool called CORAZON (Correlations Analyses Zipper Online), which implements three unsupervised learning methods to cluster gene expression datasets in a friendly environment. It allows the usage of eight gene expression normalization/transformation methodologies and the attribute’s influence. The normalizations requiring the gene length only could be performed to RNA-seq, meanwhile the others can be used with microarray and/or NanoString data. Clustering methodologies performances were evaluated through five models with accuracies between 92 and 100%. We applied our tool to obtain functional insights of non-coding RNAs (ncRNAs) based on Gene Ontology enrichment of clusters in a dataset generated by the ENCODE project. The clusters where the majority of transcripts are coding genes were enriched in Cellular, Metabolic, Transports, and Systems Development categories. Meanwhile, the ncRNAs were enriched in the Detection of Stimulus, Sensory Perception, Immunological System, and Digestion categories. CORAZON source-code is freely available at https://gitlab.com/integrativebioinformatics/corazon and the web-server can be accessed at http://corazon.integrativebioinformatics.me.
dc.identifier.doihttp://dx.doi.org/10.1186/s13104-020-05171-6
dc.identifier.issn1756-0500
dc.identifier.urihttps://hdl.handle.net/1843/2332
dc.languageInglêspt_BR
dc.publisherUniversidade Federal de Minas Gerais
dc.relation.ispartofBMC Research Notes
dc.rightsAcesso aberto
dc.subjectExpressão gênica
dc.subjectBiologia computacional
dc.subjectAprendizado de máquina
dc.subject.otherGene expression
dc.subject.otherMachine learning
dc.subject.otherClustering
dc.subject.otherNormalization
dc.subject.otherExpression profiling
dc.subject.otherTranscriptome analysis
dc.subject.otherNon-coding RNAs
dc.subject.otherWeb server
dc.titleCorazon: a web server for data normalization and unsupervised clustering based on expression profilespt_BR
dc.title.alternativeCorazon: um servidor web para normalização de dados e agrupamento não supervisionado baseado em perfis de expressão
dc.typeArtigo de periódico
local.citation.epage7
local.citation.spage1
local.citation.volume13
local.description.resumoObjetivo: A normalização e o agrupamento de dados são etapas obrigatórias na expressão gênica e em análises subsequentes, respectivamente. No entanto, implementações amigáveis ​​dessas metodologias estão disponíveis exclusivamente sob contratos de licenciamento caros ou em scripts independentes desenvolvidos internamente, o que representa um grande obstáculo para usuários com menos habilidades computacionais. Resultados: Desenvolvemos uma ferramenta online chamada CORAZON (Correlations Analyses Zipper Online), que implementa três métodos de aprendizado não supervisionado para agrupar conjuntos de dados de expressão gênica em um ambiente amigável. Ela permite o uso de oito metodologias de normalização/transformação de expressão gênica e a influência dos atributos. As normalizações que requerem apenas o comprimento do gene podem ser aplicadas a dados de RNA-seq, enquanto as demais podem ser usadas com dados de microarray e/ou NanoString. O desempenho das metodologias de agrupamento foi avaliado por meio de cinco modelos com acurácias entre 92% e 100%. Aplicamos nossa ferramenta para obter informações funcionais de RNAs não codificantes (ncRNAs) com base no enriquecimento de Gene Ontology em clusters de um conjunto de dados gerado pelo projeto ENCODE. Os clusters onde a maioria dos transcritos são genes codificadores foram enriquecidos nas categorias Celular, Metabólica, Transportes e Desenvolvimento de Sistemas. Enquanto isso, os ncRNAs foram enriquecidos nas categorias Detecção de Estímulos, Percepção Sensorial, Sistema Imunológico e Digestão. O código-fonte do CORAZON está disponível gratuitamente em https://gitlab.com/integrativebioinformatics/corazon e o servidor web pode ser acessado em http://corazon.integrativebioinformatics.me .
local.publisher.countryBrasil
local.publisher.departmentICB - DEPARTAMENTO DE BIOQUÍMICA E IMUNOLOGIA
local.publisher.initialsUFMG
local.subject.cnpqCIENCIAS BIOLOGICAS
local.url.externahttps://link.springer.com/article/10.1186/s13104-020-05171-6#Sec2

Arquivos

Pacote original

Agora exibindo 1 - 2 de 2
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.15 KB
Formato:
Plain Text
Descrição:
License file
Carregando...
Imagem de Miniatura
Nome:
CORAZON a web server for data normalization and unsupervised clustering based on expression profiles.pdf
Tamanho:
717.12 KB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Item-specific license agreed to upon submission
Descrição: