Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/55791
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1José Miguel Ortegapt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/1919128137338097pt_BR
dc.contributor.referee1Guilherme Correa Oliveirapt_BR
dc.contributor.referee2Helena Paula Brentanipt_BR
dc.contributor.referee3Riva de Paula Oliveirapt_BR
dc.contributor.referee4Gisele Lobo Pappapt_BR
dc.contributor.referee5José Miguel Ortegapt_BR
dc.creatorSaulo Augusto de Paula Pintopt_BR
dc.creator.Latteshttp://lattes.cnpq.br/5883363053237695pt_BR
dc.date.accessioned2023-07-04T22:00:07Z-
dc.date.available2023-07-04T22:00:07Z-
dc.date.issued2008-10-31-
dc.identifier.urihttp://hdl.handle.net/1843/55791-
dc.description.abstractThe clustering algorithms are among the most utilized techniques in gene expression data analy-sis. Being an exploratory technique, clustering allows researchers to find out similar expression patterns among the variety of sampled tissues pointing out which sampled conditions are more similar than others. This work presents two methodologies to compute the similarity among whole samples of gene expression data utilizing only a fraction of the most expressed sequences (MESs) in each sample. Both similarity metrics are computed considering the expression ordering of the various sequences present in the samples. One of them privileges the sharing of the most expressed sequences (named MESs similarity). The other privileges the keeping of the expression ordering of the sequences (named MESs ordering conservation). Hierarchical clustering utilizing the proposed similarity metrics was applied in 18 gene expression data series summing up 612 samples and the results compared to those produced by some traditional metrics like Euclidian distance, Pearson, and Spearman correlations. Overall, the use of the two proposed metrics out-performed the others: the MESs similarity showed 89% accuracy and the MESs ordering conserva-tion 80% whereas the best traditional metric for the same data was Pearson correlation that yielded 76% accuracy. The results presented here indicate that the proposed metrics are an alter-native to the traditional ones. Besides, they produce data that reflect biologically significant fea-tures of the sampled systems.pt_BR
dc.description.resumoOs algoritmos de clustering estão entre os mais utilizados na análise de dados de expressão gêni-ca. Por ser uma técnica exploratória, o clustering permite aos pesquisadores encontrar padrões de expressão similares entre os diversos tecidos amostrados indicando quais condições amostra-das são mais similares. O presente trabalho apresenta duas metodologias para o cálculo da simi-laridade entre amostras inteiras de dados de expressão gênica utilizando uma fração das seqüên-cias mais expressas (MESs) em cada amostra, que originam duas métricas diferentes. Ambas as métricas são computadas com base na ordenação da expressão das várias seqüências presentes nas amostras, sendo que uma privilegia o compartilhamento entre seqüências mais expressas entre amostras (chamada de similaridade MESs) e a outra a manutenção da ordem de expressão das seqüências (chamada de conservação da ordenação MESs). O clustering hierárquico utilizan-do as métricas de similaridade propostas foi aplicado em 18 séries de dados de expressão gênica, totalizando 612 amostras, e os resultados foram comparados àqueles produzidos utilizando-se métricas tradicionais como a distância euclidiana e correlações de Pearson e Spearman. No ge-ral, a utilização das duas métricas propostas produziu resultados que superaram as demais: a si-milaridade MESs apresentou uma acurácia de cerca de 89% e a conservação da ordenação MESs de 80%, enquanto a melhor métrica tradicional para os dados utilizados foi a correlação de Pear-son que apresentou acurácia de 76%. Os resultados apresentados indicam que as métricas apre-sentadas são uma alternativa às métricas tradicionais, além de proverem dados que refletem características biologicamente significativas dos sistemas amostrados.pt_BR
dc.description.sponsorshipFAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas Geraispt_BR
dc.languageporpt_BR
dc.publisherUniversidade Federal de Minas Geraispt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentICB - DEPARTAMENTO DE BIOQUÍMICA E IMUNOLOGIApt_BR
dc.publisher.programPrograma de Pós-Graduação em Bioinformaticapt_BR
dc.publisher.initialsUFMGpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectAprendizagem não-supervisionadapt_BR
dc.subjectClusteringpt_BR
dc.subjectMétricas de similaridadept_BR
dc.subjectAmostras de dados de expressão gênicapt_BR
dc.subject.otherBioinformáticapt_BR
dc.subject.otherAprendizado de máquina não supervisionadopt_BR
dc.subject.otherExpresssão gêneticapt_BR
dc.subject.otherMétricapt_BR
dc.titleClustering de amostras de dados de expressão gênica utilizando duas métricas de similaridade biologicamente inspiradaspt_BR
dc.title.alternativeClustering of gene expression data samples using two biologically inspired similarity metricspt_BR
dc.typeTesept_BR
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
tese-corrigida-final.pdf2.02 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.