Corazon: a web server for data normalization and unsupervised clustering based on expression profiles

Thaís Ramos; Vinicius Maracaja-Coutinho; José Miguel Ortega; Thaís Gaudencio do Rêgo

doi:http://dx.doi.org/10.1186/s13104-020-05171-6

Corazon: a web server for data normalization and unsupervised clustering based on expression profiles

dc.creator	Thaís Ramos
dc.creator	Vinicius Maracaja-Coutinho
dc.creator	José Miguel Ortega
dc.creator	Thaís Gaudencio do Rêgo
dc.date.accessioned	2026-04-01T23:37:28Z
dc.date.issued	2020
dc.description.abstract	Objective: Data normalization and clustering are mandatory steps in gene expression and downstream analyses, respectively. However, user-friendly implementations of these methodologies are available exclusively under expensive licensing agreements, or in stand-alone scripts developed, reflecting on a great obstacle for users with less computational skills. Results: We developed an online tool called CORAZON (Correlations Analyses Zipper Online), which implements three unsupervised learning methods to cluster gene expression datasets in a friendly environment. It allows the usage of eight gene expression normalization/transformation methodologies and the attribute’s influence. The normalizations requiring the gene length only could be performed to RNA-seq, meanwhile the others can be used with microarray and/or NanoString data. Clustering methodologies performances were evaluated through five models with accuracies between 92 and 100%. We applied our tool to obtain functional insights of non-coding RNAs (ncRNAs) based on Gene Ontology enrichment of clusters in a dataset generated by the ENCODE project. The clusters where the majority of transcripts are coding genes were enriched in Cellular, Metabolic, Transports, and Systems Development categories. Meanwhile, the ncRNAs were enriched in the Detection of Stimulus, Sensory Perception, Immunological System, and Digestion categories. CORAZON source-code is freely available at https://gitlab.com/integrativebioinformatics/corazon and the web-server can be accessed at http://corazon.integrativebioinformatics.me.
dc.identifier.doi	http://dx.doi.org/10.1186/s13104-020-05171-6
dc.identifier.issn	1756-0500
dc.identifier.uri	https://hdl.handle.net/1843/2332
dc.language	Inglês	pt_BR
dc.publisher	Universidade Federal de Minas Gerais
dc.relation.ispartof	BMC Research Notes
dc.rights	Acesso aberto
dc.subject	Expressão gênica
dc.subject	Biologia computacional
dc.subject	Aprendizado de máquina
dc.subject.other	Gene expression
dc.subject.other	Machine learning
dc.subject.other	Clustering
dc.subject.other	Normalization
dc.subject.other	Expression profiling
dc.subject.other	Transcriptome analysis
dc.subject.other	Non-coding RNAs
dc.subject.other	Web server
dc.title	Corazon: a web server for data normalization and unsupervised clustering based on expression profiles	pt_BR
dc.title.alternative	Corazon: um servidor web para normalização de dados e agrupamento não supervisionado baseado em perfis de expressão
dc.type	Artigo de periódico
local.citation.epage	7
local.citation.spage	1
local.citation.volume	13
local.description.resumo	Objetivo: A normalização e o agrupamento de dados são etapas obrigatórias na expressão gênica e em análises subsequentes, respectivamente. No entanto, implementações amigáveis dessas metodologias estão disponíveis exclusivamente sob contratos de licenciamento caros ou em scripts independentes desenvolvidos internamente, o que representa um grande obstáculo para usuários com menos habilidades computacionais. Resultados: Desenvolvemos uma ferramenta online chamada CORAZON (Correlations Analyses Zipper Online), que implementa três métodos de aprendizado não supervisionado para agrupar conjuntos de dados de expressão gênica em um ambiente amigável. Ela permite o uso de oito metodologias de normalização/transformação de expressão gênica e a influência dos atributos. As normalizações que requerem apenas o comprimento do gene podem ser aplicadas a dados de RNA-seq, enquanto as demais podem ser usadas com dados de microarray e/ou NanoString. O desempenho das metodologias de agrupamento foi avaliado por meio de cinco modelos com acurácias entre 92% e 100%. Aplicamos nossa ferramenta para obter informações funcionais de RNAs não codificantes (ncRNAs) com base no enriquecimento de Gene Ontology em clusters de um conjunto de dados gerado pelo projeto ENCODE. Os clusters onde a maioria dos transcritos são genes codificadores foram enriquecidos nas categorias Celular, Metabólica, Transportes e Desenvolvimento de Sistemas. Enquanto isso, os ncRNAs foram enriquecidos nas categorias Detecção de Estímulos, Percepção Sensorial, Sistema Imunológico e Digestão. O código-fonte do CORAZON está disponível gratuitamente em https://gitlab.com/integrativebioinformatics/corazon e o servidor web pode ser acessado em http://corazon.integrativebioinformatics.me .
local.publisher.country	Brasil
local.publisher.department	ICB - DEPARTAMENTO DE BIOQUÍMICA E IMUNOLOGIA
local.publisher.initials	UFMG
local.subject.cnpq	CIENCIAS BIOLOGICAS
local.url.externa	https://link.springer.com/article/10.1186/s13104-020-05171-6#Sec2

Arquivos

Pacote original

Agora exibindo 1 - 2 de 2

Nome:: license.txt
Tamanho:: 2.15 KB
Formato:: Plain Text
Descrição:: License file

Baixar

Nome:: CORAZON a web server for data normalization and unsupervised clustering based on expression profiles.pdf
Tamanho:: 717.12 KB
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.07 KB
Formato:: Item-specific license agreed to upon submission
Descrição:

Baixar

Coleções

Artigo de Periódico