Uma nova abordagem para aprendizado de múltiplas instâncias, baseada em seleção de instâncias via estimador de densidade por Kernel

Alexandre Wagner Chagas Faria

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/BUBD-ADLMQR

Type:	Tese de Doutorado
Title:	Uma nova abordagem para aprendizado de múltiplas instâncias, baseada em seleção de instâncias via estimador de densidade por Kernel
Authors:	Alexandre Wagner Chagas Faria
First Advisor:	Antonio de Padua Braga
First Co-advisor:	Andre Paim Lemos
First Referee:	Cristiano Leite de Castro
Second Referee:	David Menotti Gomes
Third Referee:	Luis Enrique Zárate
metadata.dc.contributor.referee4:	Frank Still Torres
Abstract:	Aprendizado de Múltiplas Instâncias (AMI) é uma generalização do aprendizado supervisionado. AMI tem sido utilizado em inúmeras aplicações, em que a rotulação para cada instância na fase de aprendizado é, às vezes, impossível ou não eciente de ser realizada de forma prática. A m de lidar com essa família de problemas, o AMI propõe um novo paradigma, assinalando um único rótulo (positivo ou negativo) para um conjunto de instâncias, chamado de bags. Mais formalmente, um bag é rotulado como positivo se contém, ao menos, uma instânciapositiva e rotulado como negativo se é conhecido, com certeza, que todas as suas instâncias são negativas. Embora exista, na literatura, um número expressivo de propostas para trabalhar com AMI, poucos métodos fornecem resultados competitivos para a maioria das bases de dados avaliadas. Além disso, falta uma análise mais aprofundada entre os métodos existentes. Neste trabalho são propostos dois novos algoritmos, baseados em seleção de instâncias por meio do cálculo da probabilidade, utilizando-se Estimador de Densidade por Kernel. O método utiliza o algoritmo LogitBoost como classicador. As abordagens baseadas em seleção de instâncias visam identicar as instâncias mais representativas em cada bag positivo, eliminando possíveis ruídos dentro desses bags para, assim, realizar um treinamento mais robusto.Testes estatísticos demonstraram que as abordagens propostas são equivalentes aos melhores algoritmos da literatura, superando todos em algumas das bases avaliadas. Também foi desenvolvida nesta tese uma nova aplicação, com base na metodologia proposta, com objetivo de selecionar pacientes que melhor representem cada classe em uma base de dados conhecida de Leucemia. Os experimentos mostram que com o emprego das abordagens propostas, foi possível reduzir, pela metade, os pacientes de treinamento e encontrar resultados ligeiramente melhores em relação àqueles que aqueles quando empregados todos os pacientes da base.
Abstract:	Multiple Instance Learning (MIL) is a generalization of the supervised learning. MIL has been used in numerous applications where the instance labeling for individual instance, for the learning step, is sometimes not possible or unfeasible in practical way. For dealing with this family of problem, MIL proposes a new paradigm by assigning asingle label (positive or negative) to a set of instances, called bag. More formally, a bag is labeled positive if it contains at least one positive instance, and it is labeled negative if all instances are certainly negative.Although there is a considerable number of algorithms to work with MIL in the literature, few works provides balanced outcomes for the majority of the datasets. Furthermore, a deeper analysis, among the existing methods, is not available. In this work are proposed two new algorithms based on instance selection by likelihood computation, using Kernel Density Estimation. The approach uses the LogitBoost algorithmas classier. The instance selection approach aim to identify the most representative instances in each positive bag, eliminating possible instance noise inside those bags, in this way, perform a more robust learning step. Statistical tests, have demonstrated that the proposal methods are comparable with the best literature algorithms, overcoming all in some datasets. It is also developed in this work a new application based on the proposed method in order to select patients that best represent each class in a Leukemia dataset. After experiments, itwas possible to reduce the training patients by half, and nd slightly better results than those when is used all patients in the dataset.
Subject:	Engenharia elétrica Aprendizado de múltiplas instâncias Kernel, Funções de
language:	Português
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
Rights:	Acesso Aberto
URI:	http://hdl.handle.net/1843/BUBD-ADLMQR
Issue Date:	12-Aug-2016
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
tese_ppgee_239_alexandre_wagner_chagas_faria.pdf		20.73 MB	Adobe PDF	View/Open

Show full item record