Comparative analysis of variable selection techniques
Carregando...
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Monografia de especialização
Título alternativo
Análise comparativa de métodos de seleção de variáveis
Primeiro orientador
Membros da banca
Marcelo Azevedo Costa
Resumo
This study rigorously assesses various methods for selecting variables through simulation across 19 distinct scenarios, varying in sample size \(n\), number of variables \(p\), significance levels, beta coefficient strengths, and variable types (discrete and continuous). Traditional methods like Backward and Stepwise consistently demonstrated robust performance across different \(n\) values, whereas newer approaches such as SSGL showed enhanced efficacy in scenarios with larger \(p\) or stronger beta coefficients. All methods demonstrated high performance in most scenarios due to their ability to identify relevant variables, as evidenced by the sensitivity metric.
Moreover, computational efficiency analysis revealed that LASSO required minimal processing time across all scenarios, contrasting with SSGL, which showed variable computation times influenced by beta strength, \(n\), and \(p\). Both Backward and Stepwise methods exhibited similar computational behavior, with Stepwise consistently requiring more time as \(p\) increased. Application to real-world data underscored the practical utility of these methods, supporting their selection based on specific data characteristics and performance objectives. This research contributes crucial insights for optimizing variable selection strategies in statistical modeling and predictive analytics.
Abstract
Este estudo avalia alguns métodos de seleção de variáveis através de simulações em 19 cenários distintos, variando em tamanho da amostra \(n\), número de variáveis \(p\), níveis de significância, forças dos coeficientes beta e tipos de variáveis (discretas e contínuas). Métodos tradicionais como Backward e Stepwise demonstraram desempenho robusto em diferentes valores de \(n\), enquanto abordagens mais recentes como SSGL mostraram maior eficácia em cenários com maior \(p\) ou coeficientes beta mais fortes. Todos os métodos apresentaram alta performance na maioria dos cenários devido à sua capacidade de identificar variáveis relevantes, ou seja, através da métrica de sensibilidade. Além disso, a análise de eficiência computacional revelou que o LASSO exigiu tempo de processamento pequeno em todos os cenários em comparação com os métodos Backward e Stepwise. Já o SSGL, apresentou tempos de processamento variáveis influenciados pela força beta, \(n\) e \(p\). Tanto os métodos Backward quanto Stepwise exibiram comportamento computacional semelhante, com Stepwise consistentemente requerendo mais tempo à medida que \(p\) aumentava. A aplicação a dados do mundo real sublinhou a utilidade prática desses métodos, apoiando sua seleção com base nas características específicas dos dados e nos objetivos de desempenho. Esta pesquisa contribui com insights cruciais para a otimização de estratégias de seleção de variáveis em modelagem estatística e análises preditivas.
Assunto
Estatística, Análise de regressão, Variedades (Matemática), LASSO (Estatística), Aprendizado do Computador
Palavras-chave
Variable, Sensitivity, Lasso, Selection methods
Citação
Departamento
Endereço externo
Coleções
Avaliação
Revisão
Suplementado Por
Referenciado Por
Licença Creative Commons
Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso Aberto
