Truth or utility: transductive regularizer for feature selection
Carregando...
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Dissertação de mestrado
Título alternativo
Verdade ou utilidade: regularizador transdutivo para seleção de features
Primeiro orientador
Membros da banca
Nívio Ziviani
Adriano Alonso Veloso
Heitor Soares Ramos Filho
Anderson da Silva Soares
Adriano Alonso Veloso
Heitor Soares Ramos Filho
Anderson da Silva Soares
Resumo
In Machine Learning, generalization is very desirable, because it prevents that model performance decays considerably with new data. However, finding general rules is very hard, once it aims to model a solution that works in any possible dataset. Therefore is very usual that a model does not achieve satisfactory results in a test set, even though different techniques of generalization are applied. That said, transduction is a technique, that in contrast with induction, aims to infer an applicable solution to a specific target set B, starting from a source set A. In this way, transduction does not try to solve a general problem, it focuses on giving a solution to a specific dataset, which drastically reduces the complexity of finding a good solution. The motivation for this work is the fact that machine learning models struggle to generalize, on the other hand, some scenarios are only interested in a solution that is good enough for a specific set of data. This scenario benefits more from transduction than induction and reduces considerably the level of difficulty to find a good solution to the specific dataset. The goal of this work is to be able to select features that optimize the results in a specific target set, starting from a source set, where we do not have labels for target set B, which are scenarios where can not retrain the model for B or apply inductive learning. The proposed method can be applied to any existing feature selection algorithm, because it proposes to continue to optimize the algorithm by any of the metrics it already uses, plus a new metric that measures the correlation of the importance of a feature set in both training and test set.
Abstract
Em Machine Learning, a generalização é muito desejável, pois evita que o desempenho do modelo decaia consideravelmente com novos dados. No entanto, encontrar regras gerais é muito difícil, uma vez que visa modelar uma solução que funcione em qualquer conjunto de dados possível. Portanto é muito comum que um modelo não alcance resultados satisfatórios em um conjunto de teste, mesmo que diferentes técnicas de generalização sejam aplicadas. Dito isto, a transdução é uma técnica que, ao contrário da indução, visa inferir uma solução aplicável a um conjunto alvo específico B, a partir de um conjunto de fontes A. Desta forma, a transdução não tenta resolver um problema geral, ela foca em dar uma solução para um conjunto de dados específico, o que reduz drasticamente a complexidade de encontrar uma boa solução. A motivação para este trabalho é o fato de que os modelos de aprendizado de máquina têm dificuldade para generalizar, por outro lado, alguns cenários estão interessados apenas em uma solução que seja boa o suficiente para um conjunto específico de dados. Este cenário se beneficia mais da transdução do que da indução e reduz consideravelmente o nível de dificuldade para encontrar uma boa solução para o conjunto de dados específico. O objetivo deste trabalho é conseguir selecionar características que otimizem os resultados em um conjunto alvo específico, partindo de um conjunto fonte, onde não temos rótulos para o conjunto alvo B, que são cenários onde não é possível retreinar o modelo para B ou aplicar a aprendizagem indutiva. O método proposto pode ser aplicado a qualquer algoritmo de seleção de características existente, pois se propõe a continuar otimizando o algoritmo por qualquer uma das métricas que ele já utiliza, além de uma nova métrica que mede a correlação da importância de um conjunto de atributos tanto no treinamento quanto no conjunto de teste.
Assunto
Computação – Teses, Aprendizado de máquina – Teses, Transdução - Teses
Palavras-chave
Machine Learning, Transduction
Citação
Departamento
Endereço externo
Avaliação
Revisão
Suplementado Por
Referenciado Por
Licença Creative Commons
Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso Aberto
