Please use this identifier to cite or link to this item:
http://hdl.handle.net/1843/66382
Type: | Dissertação |
Title: | Truth or utility: transductive regularizer for feature selection |
Other Titles: | Verdade ou utilidade: regularizador transdutivo para seleção de features |
Authors: | André Correia Lacerda Mafra |
First Advisor: | Nívio Ziviani |
First Co-advisor: | Adriano Alonso Veloso |
First Referee: | Nívio Ziviani |
Second Referee: | Adriano Alonso Veloso |
Third Referee: | Heitor Soares Ramos Filho |
metadata.dc.contributor.referee4: | Anderson da Silva Soares |
Abstract: | In Machine Learning, generalization is very desirable, because it prevents that model performance decays considerably with new data. However, finding general rules is very hard, once it aims to model a solution that works in any possible dataset. Therefore is very usual that a model does not achieve satisfactory results in a test set, even though different techniques of generalization are applied. That said, transduction is a technique, that in contrast with induction, aims to infer an applicable solution to a specific target set B, starting from a source set A. In this way, transduction does not try to solve a general problem, it focuses on giving a solution to a specific dataset, which drastically reduces the complexity of finding a good solution. The motivation for this work is the fact that machine learning models struggle to generalize, on the other hand, some scenarios are only interested in a solution that is good enough for a specific set of data. This scenario benefits more from transduction than induction and reduces considerably the level of difficulty to find a good solution to the specific dataset. The goal of this work is to be able to select features that optimize the results in a specific target set, starting from a source set, where we do not have labels for target set B, which are scenarios where can not retrain the model for B or apply inductive learning. The proposed method can be applied to any existing feature selection algorithm, because it proposes to continue to optimize the algorithm by any of the metrics it already uses, plus a new metric that measures the correlation of the importance of a feature set in both training and test set. |
Abstract: | Em Machine Learning, a generalização é muito desejável, pois evita que o desempenho do modelo decaia consideravelmente com novos dados. No entanto, encontrar regras gerais é muito difícil, uma vez que visa modelar uma solução que funcione em qualquer conjunto de dados possível. Portanto é muito comum que um modelo não alcance resultados satisfatórios em um conjunto de teste, mesmo que diferentes técnicas de generalização sejam aplicadas. Dito isto, a transdução é uma técnica que, ao contrário da indução, visa inferir uma solução aplicável a um conjunto alvo específico B, a partir de um conjunto de fontes A. Desta forma, a transdução não tenta resolver um problema geral, ela foca em dar uma solução para um conjunto de dados específico, o que reduz drasticamente a complexidade de encontrar uma boa solução. A motivação para este trabalho é o fato de que os modelos de aprendizado de máquina têm dificuldade para generalizar, por outro lado, alguns cenários estão interessados apenas em uma solução que seja boa o suficiente para um conjunto específico de dados. Este cenário se beneficia mais da transdução do que da indução e reduz consideravelmente o nível de dificuldade para encontrar uma boa solução para o conjunto de dados específico. O objetivo deste trabalho é conseguir selecionar características que otimizem os resultados em um conjunto alvo específico, partindo de um conjunto fonte, onde não temos rótulos para o conjunto alvo B, que são cenários onde não é possível retreinar o modelo para B ou aplicar a aprendizagem indutiva. O método proposto pode ser aplicado a qualquer algoritmo de seleção de características existente, pois se propõe a continuar otimizando o algoritmo por qualquer uma das métricas que ele já utiliza, além de uma nova métrica que mede a correlação da importância de um conjunto de atributos tanto no treinamento quanto no conjunto de teste. |
Subject: | Computação – Teses Aprendizado de máquina – Teses Transdução - Teses |
language: | eng |
metadata.dc.publisher.country: | Brasil |
Publisher: | Universidade Federal de Minas Gerais |
Publisher Initials: | UFMG |
metadata.dc.publisher.department: | ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO |
metadata.dc.publisher.program: | Programa de Pós-Graduação em Ciência da Computação |
Rights: | Acesso Aberto |
metadata.dc.rights.uri: | http://creativecommons.org/licenses/by-nc-nd/3.0/pt/ |
URI: | http://hdl.handle.net/1843/66382 |
Issue Date: | 1-Mar-2023 |
Appears in Collections: | Dissertações de Mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Truth or Utility Transductive Regularizer for Feature Selection.pdf | 1.35 MB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License