Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/58601
Type: Tese
Title: Automated Multi-Label Classification: Methods, Issues and Prospects
Authors: Alex Guimarães Cardoso de Sá
First Advisor: Gisele Lobo Pappa
First Referee: André Carlos Ponce de Leon Ferreira de Carvalho
Second Referee: Luiz Henrique de Campos Merschmann
Third Referee: Adriano César Machado Pereira
metadata.dc.contributor.referee4: Renato Vimieiro
Abstract: Aprendizado de Máquina Automatizado (AutoAM) surgiu para lidar com a tarefa de selecionar automaticamente algoritmos e seus hiper-parâmetros para resolver com sucesso um determinado problema de Aprendizado de Máquina (AM). Isto é feito principalmente para evitar abordagens ad hoc para essa finalidade. Com a crescente popularidade dos algoritmos de AM e seu uso indiscriminado por profissionais que não necessariamente conhecem as peculiaridades desses algoritmos, a área de AutoAM tornou-se mais relevante do que nunca. Esta tese, em particular, é centrada em AutoAM para problemas de Classificação Multi-Rótulo (CMR). Em CMR, cada exemplo no conjunto de dados pode estar associado simultaneamente a vários rótulos, tornando-o uma generalização de sua versão canônica mono-rotulada (i.e., com a associação de um único rótulo de classe para cada exemplo). Essencialmente, CMR se preocupa em aprender um modelo que separa os rótulos de classe em relevantes e irrelevantes para cada exemplo da base de dados. Embora tenhamos experimentado a progressão do campo de AutoAM, que introduziu métodos eficazes para problemas de classificação tradicional (i.e., mono-rótulo) e de regressão, ainda existem vários problemas na pesquisa de AutoAM que permanecem em aberto. Esta tese se concentra em três deles. Primeiro, investigamos se nossos quatro métodos AutoAM propostos podem funcionar tão bem para problemas de CMR, assim como funcionam para problemas de classificação tradicional e de regressão. Além dos desafios inerentes à CMR (e.g., a dificuldade de aprender com esse tipo de dados, o esforço para avaliar seus modelos e o custo computacional envolvido), nossos resultados mostraram que é possível desenvolver métodos AutoAM para problemas de CMR que executam tão bem quanto, ou melhor, do que métodos de busca conhecidos. Em segundo lugar, apresentamos uma análise relativa ao tamanho de três espaços de busca propostos e ao desempenho dos métodos AutoAM na recomendação de configurações de algoritmos de aprendizado. Ao aumentar e diminuir o tamanho do espaço de busca, mostramos que os métodos AutoAM propostos não balanceiam bem satisfatoriamente entre diversificação e intensificação apesar de seus resultados. Nossa análise de convergência também indicou que ainda devemos melhorar os métodos AutoAM propostos para garantir esse balanceamento. Por fim, investigamos como limitações de tempo distintas podem influenciar e restringir o comportamento dos métodos de busca do AutoAM e seu desempenho preditivo geral.
Abstract: Automated Machine Learning (AutoML) has emerged to deal with the task of automatically selecting learning algorithms and their hyper-parameters to successfully solve a given ML problem. This is mainly done to avoid ad hoc approaches to perform this task. With the outgrowing popularity of Machine Learning (ML) algorithms and their indiscriminate use by practitioners, who do not necessarily know the peculiarities of these algorithms, the field of AutoML has become more relevant than ever. This thesis, in particular, is centered on AutoML for Multi-Label Classification (MLC) problems. In MLC, each example in the dataset can be simultaneously associated with several class labels, making it a generalization of its canonical single-label version (i.e., with a single class label per example). Essentially, MLC is concerned with learning a model that separates each class label into relevant and irrelevant for each example in the dataset. Although we have experienced the progression of the field of AutoML, which introduced effective methods for Single-Label Classification (SLC) and regression problems, there are still several issues in AutoML research that remain open. This thesis focuses on three of them. First, we investigate if our four proposed AutoML methods can work for MLC problems as well as they work for SLC and regression problems. Apart from the inherent challenges in MLC (e.g., the hardness of learning from this type of data, the strain to evaluate its models, and the computational cost involved), our results showed that it is possible to develop AutoML methods for MLC problems that perform as good as or better than well-known global and local search methods. Second, we present an analysis relating to the size of three designed search spaces and the performance of the AutoML methods in recommending configured learning algorithms. By increasing and decreasing the search space size, we show that the proposed AutoML methods do not satisfactorily trade-off between exploration (novelty) and exploitation (locality) besides their results. Our convergence analysis also indicated that we must still improve the proposed AutoML methods (i.e., their internal mechanisms) to ensure this trade-off. Finally, we investigate how distinct time budgets (constraining the whole AutoML process) can influence and constrain the behavior of the AutoML search methods and their overall predictive performance.
Subject: Computação – Teses
Aprendizado de máquina – Teses
Classificação multirrótulo – Teses
Mineração de dados – Teses
language: eng
metadata.dc.publisher.country: Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.department: ICEX - INSTITUTO DE CIÊNCIAS EXATAS
ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
metadata.dc.publisher.program: Programa de Pós-Graduação em Ciência da Computação
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/58601
Issue Date: 17-Dec-2019
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
thesis_alex_g_c_de_sa_final_version.pdf2.17 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.