Please use this identifier to cite or link to this item:
http://hdl.handle.net/1843/53447
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor1 | Douglas Eduardo Valente Pires | pt_BR |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/2675409574553301 | pt_BR |
dc.contributor.advisor-co1 | http://lattes.cnpq.br/8989178759075946 | pt_BR |
dc.contributor.referee1 | Glaura da Conceição Franco | pt_BR |
dc.contributor.referee2 | Laurence Rodrigues do Amaral | pt_BR |
dc.contributor.referee3 | Fabíola Souza Fernandes Pereira | pt_BR |
dc.creator | Pâmela Marinho Rezende | pt_BR |
dc.creator.Lattes | http://lattes.cnpq.br/6191587619438859 | pt_BR |
dc.date.accessioned | 2023-05-16T15:17:27Z | - |
dc.date.available | 2023-05-16T15:17:27Z | - |
dc.date.issued | 2022-07-25 | - |
dc.identifier.uri | http://hdl.handle.net/1843/53447 | - |
dc.description.abstract | The exponential growth in the generation and availability of biological data in recent decades has increased the importance of databases as a resource to guide innovation and the generation of new biological insights. The broad experimental characterization of these data is, in general, unfeasible, given their complexity and scale, which makes automatic data classification using Machine Learning an essential, faster, and cheaper alternative. Biological datasets are often hierarchical in nature, with varying degrees of complexity, imposing different challenges to train, test, and validate accurate and generalizable classification models. Although some approaches to classify hierarchical data have been proposed, no guidelines regarding their utility, applicability, and limitations have been explored or implemented. These include Local approaches considering the hierarchy, building models per level or node, and Global hierarchical classification, using a flat classification approach. To fill this gap, here we have systematically contrasted the performance of Local per Level and Local per Node approaches with a Global approach applied to two different hierarchical datasets: BioLiP and CATH. The results show how different components of hierarchical datasets, such as variation coefficient and prediction by depth can guide the choice of appropriate classification schemes. Finally, we provide guidelines to support this process when embarking on a hierarchical classification task, which will help optimize computational resources and predictive performance. | pt_BR |
dc.description.resumo | O crescimento exponencial na geração e disponibilização de dados biológicos nas últimas décadas impulsionou o surgimento de bancos de dados como um recurso para orientar a inovação e a geração de novos insights biológicos. A ampla caracterização experimental desses dados é, em geral, inviável, dada a complexidade e escala desses, o que torna a classificação automática utilizando aprendizado de máquina uma alternativa essencial, mais rápida e barata. Muitos conjuntos de dados biológicos são de natureza hierárquica, com vários graus de complexidade, impondo diferentes desafios para se treinar, testar e validar modelos de classificação precisos e generalizáveis. Embora algumas abordagens para classificar dados hierárquicos tenham sido propostas, nenhuma orientação sobre sua utilidade, aplicabilidade e limitações foi explorada ou implementada até então. Isso inclui abordagens locais considerando a hierarquia, construindo modelos por nível ou nó, e global, usando uma abordagem de classificação plana. Para preencher essa lacuna, foi comparado sistematicamente o desempenho das abordagens Local por Nível e Local por Nó com uma abordagem Global aplicada a dois conjuntos de dados biológicos hierárquicos diferentes: BioLiP e CATH. Os resultados mostram como diferentes componentes de conjuntos de dados hierárquicos, como coeficiente de variação e previsão por profundidade, podem orientar a escolha de esquemas de classificação apropriados. Por fim, foram fornecidas diretrizes para apoiar esse processo ao embarcar em uma tarefa de classificação hierárquica, que ajudará a otimizar os recursos computacionais e o desempenho preditivo. | pt_BR |
dc.description.sponsorship | CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior | pt_BR |
dc.language | por | pt_BR |
dc.publisher | Universidade Federal de Minas Gerais | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.department | ICB - INSTITUTO DE CIÊNCIAS BIOLOGICAS | pt_BR |
dc.publisher.program | Programa de Pós-Graduação em Bioinformatica | pt_BR |
dc.publisher.initials | UFMG | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/pt/ | * |
dc.subject | Base de dados biológica | pt_BR |
dc.subject | Hierarquia de classes | pt_BR |
dc.subject | Classificação hierárquica | pt_BR |
dc.subject | Predição de função de proteínas | pt_BR |
dc.subject | Classificação estrutural de proteínas | pt_BR |
dc.subject.other | Bioinformática | pt_BR |
dc.subject.other | Aprendizado de Máquina | pt_BR |
dc.subject.other | Base de Dados | pt_BR |
dc.subject.other | Biologia | pt_BR |
dc.subject.other | Classificação automática | pt_BR |
dc.title | Avaliação de abordagens hierárquicas de aprendizado de máquina aplicadas a bancos de dados biológicos | pt_BR |
dc.title.alternative | Evaluating hierarchical machine learning approaches to classify biological databases | pt_BR |
dc.type | Tese | pt_BR |
Appears in Collections: | Teses de Doutorado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Tese_final.pdf | 4.17 MB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License