Evolução automática de algoritmos de redes bayesianas de classificação

Alex Guimarães Cardoso de Sá

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/ESBF-9KHHLU

Type:	Dissertação de Mestrado
Title:	Evolução automática de algoritmos de redes bayesianas de classificação
Authors:	Alex Guimarães Cardoso de Sá
First Advisor:	Gisele Lobo Pappa
First Referee:	Adriano César Machado Pereira
Second Referee:	Marcio Porto Basgalupp
Third Referee:	Renato Martins Assuncao
Abstract:	Quando nos deparamos com um novo problema de classificação, selecionar o classificador mais adequado para a tarefa é geralmente um desafio. Isso porque cada base de dados tem características diferentes, que podem tornar um classificador mais apropriado que outro. A área de meta-aprendizado surgiu para resolver este tipo de problema: selecionar um algoritmo para uma determinada base de dados de acordo com um conjunto de meta-dados. Nessa direção, este trabalho propõe uma nova abordagem para construir um algoritmo adaptado à(s) base(s) de dados da aplicação de interesse. Mais especificadamente, propõe-se um algoritmo evolucionário (AE) para evoluir automaticamente algoritmos de Redes Bayesianas de Classificação (RBCs). RBCs são modelos de classificação interessantes por serem robustos à falta de dados e incerteza, além de gerarem modelos de classificação interpretáveis. O AE proposto recebe como entrada uma lista de componentes principais de algoritmos de RBCs e uma (ou um conjunto de) base(s) de dados de entrada. Com esses dois elementos, o AE testa diferentes combinações dos componentes, gerando um algoritmo personalizado para aqueles dados. Para validar o AE, os experimentos foram divididos em três partes principais: (i) testes do método proposto em execuções direcionadas a bases de dados específicas, (ii) testes em execuções direcionadas a conjuntos de bases dados semelhantes e (iii) testes com conjuntos bases de treino e teste distintos. Para a primeira parte, 15 bases de dados da UCI foram escolhidas para testes em bases específicas a fim de gerar algoritmos personalizados para as mesmas. Já para as outras duas partes, concentrouse na aplicação do método proposto em conjuntos de bases de dados. Nesse caso, 20 bases de dados com particularidades distintas foram selecionadas com o intuito de realizar um agrupamento sobre as mesmas, podendo assim criar os diferentes cenários dos experimentos onde exista conjuntos de bases de treinamento e teste. Testes sobre o AE foram realizados considerando as três partes dos experimentos e os resultados foram comparados separadamente com uma busca gulosa e, em seguida, com três algoritmos estado-da-arte de RBCs (Naïve Bayes, TAN e K2). Os resultados mostraram que os algoritmos gerados são competitivos com aqueles dos métodos do estado-da-arte, e que na maioria dos casos o uso de algoritmo evolucionário em invés de uma simples busca gulosa melhora estatisticamente os resultados.
Abstract:	When faced with a new machine learning problem, selecting which classifier is the best to perform the task at hand is a very hard problem. The reason for this is the nature of the data used by the classifier, which can differ abruptly from one set to another, consequently affecting the classification outcome. In other words, the same classifier can not be adapted to different types of data. Most solutions proposed in the literature are based on meta-learning, and use meta-data about the problem to recommend an effective algorithm to solve the task. This work proposes a new approach to this problem: to build an algorithm tailored to the application problem at hand. More specifically, we propose an evolutionary algorithm (EA) to automatically evolve Bayesian Network Classifiers (BNCs). The method receives as input a list of the main components of BNC algorithms, and uses an EA to encode these components. Given an input dataset (or a group of datasets), the method tests different combinations of components and returns the best BNC algorithm to that specific application domain. For testing, we divided the experiments in three main parts: (i) tests in specific datasets domains; (ii) tests directed to sets of similar datasets; (iii) tests directed to sets of distinct datasets. For the first part, 15 UCI datasets were chosen to evaluate the proposed approach and generate tailored algorithms for these datasets. The other two parts focused on applying the EA on sets of datasets. In this case, 20 datasets with distinct characteristics were selected in order to cluster them and, thus, create different experiment scenarios. Tests were performed on the AE considering the three parts of experiments and results were compared separately with a greedy search method and, then, with three state-of-art BNC algorithms (Naïve Bayes, TAN and K2). Results showed that the generated BNC algorithms are competitive with those of the state-of-art methods, and in most cases the use of an evolutionary algorithm, rather than a simple greedy search, improved statistically the results.
Subject:	Algoritmos de computador Computação Classificação (Computadores)
language:	Português
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
Rights:	Acesso Aberto
URI:	http://hdl.handle.net/1843/ESBF-9KHHLU
Issue Date:	26-Feb-2014
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
alexguimaraes_vers_ocorreta.pdf		2.34 MB	Adobe PDF	View/Open

Show full item record