Truth or utility: transductive regularizer for feature selection

André Correia Lacerda Mafra

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/66382

Type:	Dissertação
Title:	Truth or utility: transductive regularizer for feature selection
Other Titles:	Verdade ou utilidade: regularizador transdutivo para seleção de features
Authors:	André Correia Lacerda Mafra
First Advisor:	Nívio Ziviani
First Co-advisor:	Adriano Alonso Veloso
First Referee:	Nívio Ziviani
Second Referee:	Adriano Alonso Veloso
Third Referee:	Heitor Soares Ramos Filho
metadata.dc.contributor.referee4:	Anderson da Silva Soares
Abstract:	In Machine Learning, generalization is very desirable, because it prevents that model performance decays considerably with new data. However, finding general rules is very hard, once it aims to model a solution that works in any possible dataset. Therefore is very usual that a model does not achieve satisfactory results in a test set, even though different techniques of generalization are applied. That said, transduction is a technique, that in contrast with induction, aims to infer an applicable solution to a specific target set B, starting from a source set A. In this way, transduction does not try to solve a general problem, it focuses on giving a solution to a specific dataset, which drastically reduces the complexity of finding a good solution. The motivation for this work is the fact that machine learning models struggle to generalize, on the other hand, some scenarios are only interested in a solution that is good enough for a specific set of data. This scenario benefits more from transduction than induction and reduces considerably the level of difficulty to find a good solution to the specific dataset. The goal of this work is to be able to select features that optimize the results in a specific target set, starting from a source set, where we do not have labels for target set B, which are scenarios where can not retrain the model for B or apply inductive learning. The proposed method can be applied to any existing feature selection algorithm, because it proposes to continue to optimize the algorithm by any of the metrics it already uses, plus a new metric that measures the correlation of the importance of a feature set in both training and test set.
Abstract:	Em Machine Learning, a generalização é muito desejável, pois evita que o desempenho do modelo decaia consideravelmente com novos dados. No entanto, encontrar regras gerais é muito difícil, uma vez que visa modelar uma solução que funcione em qualquer conjunto de dados possível. Portanto é muito comum que um modelo não alcance resultados satisfatórios em um conjunto de teste, mesmo que diferentes técnicas de generalização sejam aplicadas. Dito isto, a transdução é uma técnica que, ao contrário da indução, visa inferir uma solução aplicável a um conjunto alvo específico B, a partir de um conjunto de fontes A. Desta forma, a transdução não tenta resolver um problema geral, ela foca em dar uma solução para um conjunto de dados específico, o que reduz drasticamente a complexidade de encontrar uma boa solução. A motivação para este trabalho é o fato de que os modelos de aprendizado de máquina têm dificuldade para generalizar, por outro lado, alguns cenários estão interessados apenas em uma solução que seja boa o suficiente para um conjunto específico de dados. Este cenário se beneficia mais da transdução do que da indução e reduz consideravelmente o nível de dificuldade para encontrar uma boa solução para o conjunto de dados específico. O objetivo deste trabalho é conseguir selecionar características que otimizem os resultados em um conjunto alvo específico, partindo de um conjunto fonte, onde não temos rótulos para o conjunto alvo B, que são cenários onde não é possível retreinar o modelo para B ou aplicar a aprendizagem indutiva. O método proposto pode ser aplicado a qualquer algoritmo de seleção de características existente, pois se propõe a continuar otimizando o algoritmo por qualquer uma das métricas que ele já utiliza, além de uma nova métrica que mede a correlação da importância de um conjunto de atributos tanto no treinamento quanto no conjunto de teste.
Subject:	Computação – Teses Aprendizado de máquina – Teses Transdução - Teses
language:	eng
metadata.dc.publisher.country:	Brasil
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
metadata.dc.publisher.department:	ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
metadata.dc.publisher.program:	Programa de Pós-Graduação em Ciência da Computação
Rights:	Acesso Aberto
metadata.dc.rights.uri:	http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
URI:	http://hdl.handle.net/1843/66382
Issue Date:	1-Mar-2023
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
Truth or Utility Transductive Regularizer for Feature Selection.pdf		1.35 MB	Adobe PDF	View/Open

Show full item record

This item is licensed under a Creative Commons License