Understanding the fitness landscape of AutoML problems

Matheus Cândido Teixeira

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/50557

Type:	Dissertação
Title:	Understanding the fitness landscape of AutoML problems
Authors:	Matheus Cândido Teixeira
First Advisor:	Gisele Lobo Pappa
First Referee:	Leonardo Vanneschi
Second Referee:	Thiago Ferreira de Noronha
Abstract:	Fitness Landscape Analysis (FLA) encompasses a set of tools used to better comprehend the characteristics of the search space of a problem. Understanding the fitness landscape can help improving existing algorithms and to give insights about the problem. The classical way of analyzing fitness landscapes is by performing an exploratory landscape analysis (ELA) using a set of metrics that leverage characteristics about the space, such as Fitness Distance Correlation or neutrality rate. Another way of looking at these spaces is by using Local Optima Network (LON), a graph built over the fitness landscape, where each node represents a local optima in the search space. This work uses FLA to better understand the fitness landscape of AutoML problems. The main challenges of understanding these landscapes are related to the types of the parameters involved and the complex representation of the solutions (when compared to the solution representation of other problems that had their landscapes studied). While most metrics are first developed for either continuous or combinatorial spaces, AutoML problems have both categorical, discrete and continuous parameters, many of them conditional (i.e., one hyperparameter is only present if another hyperparameter is previously selected). The representation is somehow hierarchical, as changes in classification algorithms, for example, tend to have a much higher impact in fitness than changing a single algorithm hyperparameter. Hence, defining neighborhood in this space is not a trivial task. Aiming to improve our understand of these landscapes, we defined the fitness landscape of an AutoML problem and analyzed several FLA metrics to verify if they are appropriate for the search space induced by AutoML problems. First, we looked at set of traditional metrics for ELA and performed experiments on several definitions to verify the robustness of the metrics. Next, we analyzed the space from the perspective of Local Optima Network, which is particularly good to measure the neutrality and roughness of the search space. The results showed that at first glance LONs are more appropriate to characterize these space, which are multimodal and present accentuated neutrality, being a challenging space for local methods.
Abstract:	A Fitness Landscape Analysis (FLA) engloba um conjunto de ferramentas utilizadas para compreender melhor as características do espaço de busca de um problema. Compreender o cenário de aptidão pode ajudar a melhorar os algoritmos existentes e fornecer informações sobre o problema. A maneira clássica de analisar as paisagens de aptidão é realizando uma análise exploratória da paisagem (ELA) usando um conjunto de métricas que alavancam características sobre o espaço, como correlação de distância de aptidão ou taxa de neutralidade. Outra forma de olhar para esses espaços é usando o Local Optima Network (LON), um grafo construído sobre a paisagem de fitness, onde cada nó representa um ótimo local no espaço de busca. Este trabalho usa o FLA para entender melhor o cenário de adequação dos problemas do AutoML. Os principais desafios de compreensão dessas paisagens estão relacionados aos tipos de parâmetros envolvidos e à representação complexa das soluções (quando comparadas com a representação de soluções de outros problemas que tiveram suas paisagens estudadas). Embora a maioria das métricas seja desenvolvida primeiro para espaços contínuos ou combinatórios, os problemas de AutoML têm parâmetros categóricos, discretos e contínuos, muitos deles condicionais (ou seja, um hiperparâmetro está presente apenas se outro hiperparâmetro for previamente selecionado). A representação é de alguma forma hierárquica, já que alterações em algoritmos de classificação, por exemplo, tendem a ter um impacto muito maior no fitness do que alterar um único hiperparâmetro de algoritmo. Portanto, definir vizinhança neste espaço não é uma tarefa trivial. Com o objetivo de melhorar nosso entendimento dessas paisagens, definimos a paisagem de aptidão de um problema de AutoML e analisamos várias métricas FLA para verificar se elas são apropriadas para o espaço de busca induzido por problemas de AutoML. Primeiro, examinamos um conjunto de métricas tradicionais para ELA e realizamos experimentos em várias definições para verificar a robustez das métricas. Em seguida, analisamos o espaço sob a perspectiva da Rede de Ótimos Locais, que é particularmente boa para medir a neutralidade e rugosidade do espaço de busca. Os resultados mostraram que, à primeira vista, os LONs são mais adequados para caracterizar esses espaços, que são multimodais e apresentam neutralidade acentuada, sendo um espaço desafiador para métodos locais.
Subject:	Computação – Teses Programação genética (Computação) – Teses Aprendizado de máquina– Teses Fitness Landscape – Teses
language:	eng
metadata.dc.publisher.country:	Brasil
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
metadata.dc.publisher.department:	ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
metadata.dc.publisher.program:	Programa de Pós-Graduação em Ciência da Computação
Rights:	Acesso Restrito
URI:	http://hdl.handle.net/1843/50557
Issue Date:	5-Dec-2022
metadata.dc.description.embargo:	5-Dec-2024
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
dissertacao (final)_pdfa.pdf ???org.dspace.app.webui.jsptag.ItemTag.restrictionUntil??? 2024-12-05		3.23 MB	Adobe PDF	View/Open Request a copy

Show full item record