Uma nova abordagem para aprendizado de múltiplas instâncias, baseada em seleção de instâncias via estimador de densidade por Kernel

Alexandre Wagner Chagas Faria

Use este identificador para citar o ir al link de este elemento: http://hdl.handle.net/1843/BUBD-ADLMQR

Tipo:	Tese de Doutorado
Título:	Uma nova abordagem para aprendizado de múltiplas instâncias, baseada em seleção de instâncias via estimador de densidade por Kernel
Autor(es):	Alexandre Wagner Chagas Faria
primer Tutor:	Antonio de Padua Braga
primer Co-tutor:	Andre Paim Lemos
primer miembro del tribunal :	Cristiano Leite de Castro
Segundo miembro del tribunal:	David Menotti Gomes
Tercer miembro del tribunal:	Luis Enrique Zárate
Cuarto miembro del tribunal:	Frank Still Torres
Resumen:	Aprendizado de Múltiplas Instâncias (AMI) é uma generalização do aprendizado supervisionado. AMI tem sido utilizado em inúmeras aplicações, em que a rotulação para cada instância na fase de aprendizado é, às vezes, impossível ou não eciente de ser realizada de forma prática. A m de lidar com essa família de problemas, o AMI propõe um novo paradigma, assinalando um único rótulo (positivo ou negativo) para um conjunto de instâncias, chamado de bags. Mais formalmente, um bag é rotulado como positivo se contém, ao menos, uma instânciapositiva e rotulado como negativo se é conhecido, com certeza, que todas as suas instâncias são negativas. Embora exista, na literatura, um número expressivo de propostas para trabalhar com AMI, poucos métodos fornecem resultados competitivos para a maioria das bases de dados avaliadas. Além disso, falta uma análise mais aprofundada entre os métodos existentes. Neste trabalho são propostos dois novos algoritmos, baseados em seleção de instâncias por meio do cálculo da probabilidade, utilizando-se Estimador de Densidade por Kernel. O método utiliza o algoritmo LogitBoost como classicador. As abordagens baseadas em seleção de instâncias visam identicar as instâncias mais representativas em cada bag positivo, eliminando possíveis ruídos dentro desses bags para, assim, realizar um treinamento mais robusto.Testes estatísticos demonstraram que as abordagens propostas são equivalentes aos melhores algoritmos da literatura, superando todos em algumas das bases avaliadas. Também foi desenvolvida nesta tese uma nova aplicação, com base na metodologia proposta, com objetivo de selecionar pacientes que melhor representem cada classe em uma base de dados conhecida de Leucemia. Os experimentos mostram que com o emprego das abordagens propostas, foi possível reduzir, pela metade, os pacientes de treinamento e encontrar resultados ligeiramente melhores em relação àqueles que aqueles quando empregados todos os pacientes da base.
Abstract:	Multiple Instance Learning (MIL) is a generalization of the supervised learning. MIL has been used in numerous applications where the instance labeling for individual instance, for the learning step, is sometimes not possible or unfeasible in practical way. For dealing with this family of problem, MIL proposes a new paradigm by assigning asingle label (positive or negative) to a set of instances, called bag. More formally, a bag is labeled positive if it contains at least one positive instance, and it is labeled negative if all instances are certainly negative.Although there is a considerable number of algorithms to work with MIL in the literature, few works provides balanced outcomes for the majority of the datasets. Furthermore, a deeper analysis, among the existing methods, is not available. In this work are proposed two new algorithms based on instance selection by likelihood computation, using Kernel Density Estimation. The approach uses the LogitBoost algorithmas classier. The instance selection approach aim to identify the most representative instances in each positive bag, eliminating possible instance noise inside those bags, in this way, perform a more robust learning step. Statistical tests, have demonstrated that the proposal methods are comparable with the best literature algorithms, overcoming all in some datasets. It is also developed in this work a new application based on the proposed method in order to select patients that best represent each class in a Leukemia dataset. After experiments, itwas possible to reduce the training patients by half, and nd slightly better results than those when is used all patients in the dataset.
Asunto:	Engenharia elétrica Aprendizado de múltiplas instâncias Kernel, Funções de
Idioma:	Português
Editor:	Universidade Federal de Minas Gerais
Sigla da Institución:	UFMG
Tipo de acceso:	Acesso Aberto
URI:	http://hdl.handle.net/1843/BUBD-ADLMQR
Fecha del documento:	12-ago-2016
Aparece en las colecciones:	Teses de Doutorado

archivos asociados a este elemento:

archivo	Descripción	Tamaño	Formato
tese_ppgee_239_alexandre_wagner_chagas_faria.pdf		20.73 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo del elemento Visualizar estadísticas