Comparative analysis of variable selection techniques

Carregando...
Imagem de Miniatura

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Minas Gerais

Descrição

Tipo

Monografia de especialização

Título alternativo

Análise comparativa de métodos de seleção de variáveis

Primeiro orientador

Membros da banca

Marcelo Azevedo Costa

Resumo

This study rigorously assesses various methods for selecting variables through simulation across 19 distinct scenarios, varying in sample size \(n\), number of variables \(p\), significance levels, beta coefficient strengths, and variable types (discrete and continuous). Traditional methods like Backward and Stepwise consistently demonstrated robust performance across different \(n\) values, whereas newer approaches such as SSGL showed enhanced efficacy in scenarios with larger \(p\) or stronger beta coefficients. All methods demonstrated high performance in most scenarios due to their ability to identify relevant variables, as evidenced by the sensitivity metric. Moreover, computational efficiency analysis revealed that LASSO required minimal processing time across all scenarios, contrasting with SSGL, which showed variable computation times influenced by beta strength, \(n\), and \(p\). Both Backward and Stepwise methods exhibited similar computational behavior, with Stepwise consistently requiring more time as \(p\) increased. Application to real-world data underscored the practical utility of these methods, supporting their selection based on specific data characteristics and performance objectives. This research contributes crucial insights for optimizing variable selection strategies in statistical modeling and predictive analytics.

Abstract

Este estudo avalia alguns métodos de seleção de variáveis através de simulações em 19 cenários distintos, variando em tamanho da amostra \(n\), número de variáveis \(p\), níveis de significância, forças dos coeficientes beta e tipos de variáveis (discretas e contínuas). Métodos tradicionais como Backward e Stepwise demonstraram desempenho robusto em diferentes valores de \(n\), enquanto abordagens mais recentes como SSGL mostraram maior eficácia em cenários com maior \(p\) ou coeficientes beta mais fortes. Todos os métodos apresentaram alta performance na maioria dos cenários devido à sua capacidade de identificar variáveis relevantes, ou seja, através da métrica de sensibilidade. Além disso, a análise de eficiência computacional revelou que o LASSO exigiu tempo de processamento pequeno em todos os cenários em comparação com os métodos Backward e Stepwise. Já o SSGL, apresentou tempos de processamento variáveis influenciados pela força beta, \(n\) e \(p\). Tanto os métodos Backward quanto Stepwise exibiram comportamento computacional semelhante, com Stepwise consistentemente requerendo mais tempo à medida que \(p\) aumentava. A aplicação a dados do mundo real sublinhou a utilidade prática desses métodos, apoiando sua seleção com base nas características específicas dos dados e nos objetivos de desempenho. Esta pesquisa contribui com insights cruciais para a otimização de estratégias de seleção de variáveis em modelagem estatística e análises preditivas.

Assunto

Estatística, Análise de regressão, Variedades (Matemática), LASSO (Estatística), Aprendizado do Computador

Palavras-chave

Variable, Sensitivity, Lasso, Selection methods

Citação

Endereço externo

Avaliação

Revisão

Suplementado Por

Referenciado Por

Licença Creative Commons

Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso Aberto