Please use this identifier to cite or link to this item:
http://hdl.handle.net/1843/50557
Type: | Dissertação |
Title: | Understanding the fitness landscape of AutoML problems |
Authors: | Matheus Cândido Teixeira |
First Advisor: | Gisele Lobo Pappa |
First Referee: | Leonardo Vanneschi |
Second Referee: | Thiago Ferreira de Noronha |
Abstract: | Fitness Landscape Analysis (FLA) encompasses a set of tools used to better comprehend the characteristics of the search space of a problem. Understanding the fitness landscape can help improving existing algorithms and to give insights about the problem. The classical way of analyzing fitness landscapes is by performing an exploratory landscape analysis (ELA) using a set of metrics that leverage characteristics about the space, such as Fitness Distance Correlation or neutrality rate. Another way of looking at these spaces is by using Local Optima Network (LON), a graph built over the fitness landscape, where each node represents a local optima in the search space. This work uses FLA to better understand the fitness landscape of AutoML problems. The main challenges of understanding these landscapes are related to the types of the parameters involved and the complex representation of the solutions (when compared to the solution representation of other problems that had their landscapes studied). While most metrics are first developed for either continuous or combinatorial spaces, AutoML problems have both categorical, discrete and continuous parameters, many of them conditional (i.e., one hyperparameter is only present if another hyperparameter is previously selected). The representation is somehow hierarchical, as changes in classification algorithms, for example, tend to have a much higher impact in fitness than changing a single algorithm hyperparameter. Hence, defining neighborhood in this space is not a trivial task. Aiming to improve our understand of these landscapes, we defined the fitness landscape of an AutoML problem and analyzed several FLA metrics to verify if they are appropriate for the search space induced by AutoML problems. First, we looked at set of traditional metrics for ELA and performed experiments on several definitions to verify the robustness of the metrics. Next, we analyzed the space from the perspective of Local Optima Network, which is particularly good to measure the neutrality and roughness of the search space. The results showed that at first glance LONs are more appropriate to characterize these space, which are multimodal and present accentuated neutrality, being a challenging space for local methods. |
Abstract: | A Fitness Landscape Analysis (FLA) engloba um conjunto de ferramentas utilizadas para compreender melhor as características do espaço de busca de um problema. Compreender o cenário de aptidão pode ajudar a melhorar os algoritmos existentes e fornecer informações sobre o problema. A maneira clássica de analisar as paisagens de aptidão é realizando uma análise exploratória da paisagem (ELA) usando um conjunto de métricas que alavancam características sobre o espaço, como correlação de distância de aptidão ou taxa de neutralidade. Outra forma de olhar para esses espaços é usando o Local Optima Network (LON), um grafo construído sobre a paisagem de fitness, onde cada nó representa um ótimo local no espaço de busca. Este trabalho usa o FLA para entender melhor o cenário de adequação dos problemas do AutoML. Os principais desafios de compreensão dessas paisagens estão relacionados aos tipos de parâmetros envolvidos e à representação complexa das soluções (quando comparadas com a representação de soluções de outros problemas que tiveram suas paisagens estudadas). Embora a maioria das métricas seja desenvolvida primeiro para espaços contínuos ou combinatórios, os problemas de AutoML têm parâmetros categóricos, discretos e contínuos, muitos deles condicionais (ou seja, um hiperparâmetro está presente apenas se outro hiperparâmetro for previamente selecionado). A representação é de alguma forma hierárquica, já que alterações em algoritmos de classificação, por exemplo, tendem a ter um impacto muito maior no fitness do que alterar um único hiperparâmetro de algoritmo. Portanto, definir vizinhança neste espaço não é uma tarefa trivial. Com o objetivo de melhorar nosso entendimento dessas paisagens, definimos a paisagem de aptidão de um problema de AutoML e analisamos várias métricas FLA para verificar se elas são apropriadas para o espaço de busca induzido por problemas de AutoML. Primeiro, examinamos um conjunto de métricas tradicionais para ELA e realizamos experimentos em várias definições para verificar a robustez das métricas. Em seguida, analisamos o espaço sob a perspectiva da Rede de Ótimos Locais, que é particularmente boa para medir a neutralidade e rugosidade do espaço de busca. Os resultados mostraram que, à primeira vista, os LONs são mais adequados para caracterizar esses espaços, que são multimodais e apresentam neutralidade acentuada, sendo um espaço desafiador para métodos locais. |
Subject: | Computação – Teses Programação genética (Computação) – Teses Aprendizado de máquina– Teses Fitness Landscape – Teses |
language: | eng |
metadata.dc.publisher.country: | Brasil |
Publisher: | Universidade Federal de Minas Gerais |
Publisher Initials: | UFMG |
metadata.dc.publisher.department: | ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO |
metadata.dc.publisher.program: | Programa de Pós-Graduação em Ciência da Computação |
Rights: | Acesso Restrito |
URI: | http://hdl.handle.net/1843/50557 |
Issue Date: | 5-Dec-2022 |
metadata.dc.description.embargo: | 5-Dec-2024 |
Appears in Collections: | Dissertações de Mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
dissertacao (final)_pdfa.pdf ???org.dspace.app.webui.jsptag.ItemTag.restrictionUntil??? 2024-12-05 | 3.23 MB | Adobe PDF | View/Open Request a copy |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.