Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/62093
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Gisele Lobo Pappapt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/5936682335701497pt_BR
dc.contributor.advisor-co1Alex Guimarães Cardoso de Sápt_BR
dc.contributor.referee1Renato Vimieiropt_BR
dc.contributor.referee2Ricardo Bastos Cavalcante Prudênciopt_BR
dc.creatorCristiano Guimarães Pimentapt_BR
dc.creator.Latteshttp://lattes.cnpq.br/8713326153602094pt_BR
dc.date.accessioned2023-12-19T20:53:28Z-
dc.date.available2023-12-19T20:53:28Z-
dc.date.issued2023-06-21-
dc.identifier.urihttp://hdl.handle.net/1843/62093-
dc.description.abstractAprendizado de Máquina Automatizado (AutoML) tem o objetivo de selecionar e configurar pipelines de aprendizado de máquina automaticamente, sem exigir conhecimentos profundos do usuário. Métodos de AutoML utilizam um espaço de busca que contém possíveis soluções e tentam encontrar o melhor pipeline para um problema de aprendizado específico. Entretanto, pouco se sabe sobre quais são as características desses espaços de busca e como elas afetam o desempenho de métodos de busca. Uma forma de descrever os espaços de busca é por meio de Análise de Fitness Landscape (FLA), uma técnica muito utilizada para descrever o espaço de busca de problemas de otimização combinatória. O presente trabalho adapta métricas clássicas de FLA, tais como Neutralidade, Correlação de Distância de Fitness (FDC) e Distância de Correlação ao contexto de AutoML, cujos espaços de busca são complexos, uma vez que contêm variáveis discretas, contínuas, categóricas e condicionais, de forma totalmente independente do método de busca utilizado para explorar o espaço. Além disso, é feita uma avaliação de como as características do espaço de busca afetam o desempenho de dois métodos de busca baseados em otimização Bayesiana: Tree-structured Parzen Estimator (TPE) e Sequential Model-based Algorithm Configuration (SMAC). De forma a utilizar FLA no contexto de AutoML, nós propomos uma representação em árvore para os pipelines de aprendizado de máquina capaz de capturar sua semântica, uma definição de vizinhança baseada em um operador de mutação e uma medida semântica de distância entre pipelines. Análises de Neutralidade sugerem que espaços de busca maiores tendem a ter mais áreas com valores iguais, ou quase iguais, de fitness, uma característica que pode melhorar a habilidade do TPE de explorar o espaço e encontrar boas soluções. Espaços de busca maiores tendem a ser mais enrugados, de acordo com a métrica de Distância de Correlação, e normalmente são mais difíceis para os otimizadores. FDC se mostrou uma métrica pouco informativa em relação à dificuldade do problema de encontrar o melhor pipeline de aprendizado de máquina. Além disso, a utilização de ótimos locais para calcular a métrica pode levar a resultados bastante diferentes em comparação ao uso do ótimo global, cujo cálculo é normalmente inviável para problemas de AutoML. Por outro lado, desempenho do otimizador SMAC se mostrou menos afetado por alterações nas características do espaço, quando comparado ao TPE.pt_BR
dc.description.resumoAutomated Machine Learning (AutoML) aims at automatically selecting and configuring complete machine learning pipelines without requiring deep user expertise. AutoML methods utilize a search space of possible solutions and try to find the best pipeline for a given learning problem. However, there is little knowledge about the characteristics of such spaces and how they relate to the performance of search methods. One way of exploring them is using Fitness Landscape Analysis (FLA), a technique commonly used to describe the landscape of combinatorial optimization problems. This work adapts classic FLA measures, such as Neutrality, Fitness Distance Correlation (FDC) and Correlation Length, to the context of the complex fitness landscape generated by AutoML search spaces, which include discrete, continuous, categorical and conditional variables, regardless of the methods used to explore the search spaces. It also evaluates how the characteristics of the landscape affect the performance of two AutoML methods based on Bayesian optimization: Tree-structured Parzen Estimator (TPE) and Sequential Model-based Algorithm Configuration (SMAC). In order to use FLA in the context of AutoML, we propose a tree-based representation for machine learning pipelines that is able to capture their semantics, a neighborhood definition based on a mutation operator, and a semantic distance metric between pipelines. Neutrality analyses suggest that larger landscapes tend to have more areas of equal or nearly equal fitness values, a feature that can improve the ability of TPE to explore the search space and find good solutions. Larger search spaces tend to be more rugged, as indicated by the Correlation Length measure, and are often more challenging for the optimizers. FDC proved to be a weak measure in describing problem difficulty. Furthermore, using local optima to calculate FDC can lead to very different results when compared to using the global optimum, which is usually unfeasible to calculate for AutoML problems. On the other hand, SMAC’s performance seems less affected by changes in the characteristics of the landscape.pt_BR
dc.description.sponsorshipFAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas Geraispt_BR
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superiorpt_BR
dc.languageengpt_BR
dc.publisherUniversidade Federal de Minas Geraispt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃOpt_BR
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computaçãopt_BR
dc.publisher.initialsUFMGpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectFitness landscape analysispt_BR
dc.subjectAutomated machine learningpt_BR
dc.subjectSearch spacespt_BR
dc.subjectOptimizationpt_BR
dc.subject.otherComputação – Tesespt_BR
dc.subject.otherAprendizado do computador – Tesespt_BR
dc.subject.otherOtimização combinatória - Tesespt_BR
dc.subject.otherFitness landscape – Tesespt_BR
dc.titleCharacterization of automated machine learning fitness landscapespt_BR
dc.typeDissertaçãopt_BR
dc.identifier.orcidhttps://orcid.org/0000-0003-2809-8663pt_BR
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
Dissertation_Cristiano_G_Pimenta.pdf11.85 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.