Corazon: a web server for data normalization and unsupervised clustering based on expression profiles

Descrição

Tipo

Artigo de periódico

Título alternativo

Corazon: um servidor web para normalização de dados e agrupamento não supervisionado baseado em perfis de expressão

Primeiro orientador

Membros da banca

Resumo

Objetivo: A normalização e o agrupamento de dados são etapas obrigatórias na expressão gênica e em análises subsequentes, respectivamente. No entanto, implementações amigáveis ​​dessas metodologias estão disponíveis exclusivamente sob contratos de licenciamento caros ou em scripts independentes desenvolvidos internamente, o que representa um grande obstáculo para usuários com menos habilidades computacionais. Resultados: Desenvolvemos uma ferramenta online chamada CORAZON (Correlations Analyses Zipper Online), que implementa três métodos de aprendizado não supervisionado para agrupar conjuntos de dados de expressão gênica em um ambiente amigável. Ela permite o uso de oito metodologias de normalização/transformação de expressão gênica e a influência dos atributos. As normalizações que requerem apenas o comprimento do gene podem ser aplicadas a dados de RNA-seq, enquanto as demais podem ser usadas com dados de microarray e/ou NanoString. O desempenho das metodologias de agrupamento foi avaliado por meio de cinco modelos com acurácias entre 92% e 100%. Aplicamos nossa ferramenta para obter informações funcionais de RNAs não codificantes (ncRNAs) com base no enriquecimento de Gene Ontology em clusters de um conjunto de dados gerado pelo projeto ENCODE. Os clusters onde a maioria dos transcritos são genes codificadores foram enriquecidos nas categorias Celular, Metabólica, Transportes e Desenvolvimento de Sistemas. Enquanto isso, os ncRNAs foram enriquecidos nas categorias Detecção de Estímulos, Percepção Sensorial, Sistema Imunológico e Digestão. O código-fonte do CORAZON está disponível gratuitamente em https://gitlab.com/integrativebioinformatics/corazon e o servidor web pode ser acessado em http://corazon.integrativebioinformatics.me .

Abstract

Objective: Data normalization and clustering are mandatory steps in gene expression and downstream analyses, respectively. However, user-friendly implementations of these methodologies are available exclusively under expensive licensing agreements, or in stand-alone scripts developed, reflecting on a great obstacle for users with less computational skills. Results: We developed an online tool called CORAZON (Correlations Analyses Zipper Online), which implements three unsupervised learning methods to cluster gene expression datasets in a friendly environment. It allows the usage of eight gene expression normalization/transformation methodologies and the attribute’s influence. The normalizations requiring the gene length only could be performed to RNA-seq, meanwhile the others can be used with microarray and/or NanoString data. Clustering methodologies performances were evaluated through five models with accuracies between 92 and 100%. We applied our tool to obtain functional insights of non-coding RNAs (ncRNAs) based on Gene Ontology enrichment of clusters in a dataset generated by the ENCODE project. The clusters where the majority of transcripts are coding genes were enriched in Cellular, Metabolic, Transports, and Systems Development categories. Meanwhile, the ncRNAs were enriched in the Detection of Stimulus, Sensory Perception, Immunological System, and Digestion categories. CORAZON source-code is freely available at https://gitlab.com/integrativebioinformatics/corazon and the web-server can be accessed at http://corazon.integrativebioinformatics.me.

Assunto

Expressão gênica, Biologia computacional, Aprendizado de máquina

Palavras-chave

Gene expression, Machine learning, Clustering, Normalization, Expression profiling, Transcriptome analysis, Non-coding RNAs, Web server

Citação

Curso

Endereço externo

https://link.springer.com/article/10.1186/s13104-020-05171-6#Sec2

Avaliação

Revisão

Suplementado Por

Referenciado Por