Comparative analysis of variable selection techniques
| dc.creator | Gustavo Macedo Miranda | |
| dc.date.accessioned | 2024-12-17T16:51:54Z | |
| dc.date.accessioned | 2025-09-09T00:02:49Z | |
| dc.date.available | 2024-12-17T16:51:54Z | |
| dc.date.issued | 2024-06-25 | |
| dc.description.abstract | Este estudo avalia alguns métodos de seleção de variáveis através de simulações em 19 cenários distintos, variando em tamanho da amostra \(n\), número de variáveis \(p\), níveis de significância, forças dos coeficientes beta e tipos de variáveis (discretas e contínuas). Métodos tradicionais como Backward e Stepwise demonstraram desempenho robusto em diferentes valores de \(n\), enquanto abordagens mais recentes como SSGL mostraram maior eficácia em cenários com maior \(p\) ou coeficientes beta mais fortes. Todos os métodos apresentaram alta performance na maioria dos cenários devido à sua capacidade de identificar variáveis relevantes, ou seja, através da métrica de sensibilidade. Além disso, a análise de eficiência computacional revelou que o LASSO exigiu tempo de processamento pequeno em todos os cenários em comparação com os métodos Backward e Stepwise. Já o SSGL, apresentou tempos de processamento variáveis influenciados pela força beta, \(n\) e \(p\). Tanto os métodos Backward quanto Stepwise exibiram comportamento computacional semelhante, com Stepwise consistentemente requerendo mais tempo à medida que \(p\) aumentava. A aplicação a dados do mundo real sublinhou a utilidade prática desses métodos, apoiando sua seleção com base nas características específicas dos dados e nos objetivos de desempenho. Esta pesquisa contribui com insights cruciais para a otimização de estratégias de seleção de variáveis em modelagem estatística e análises preditivas. | |
| dc.identifier.uri | https://hdl.handle.net/1843/78733 | |
| dc.language | eng | |
| dc.publisher | Universidade Federal de Minas Gerais | |
| dc.rights | Acesso Aberto | |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/pt/ | |
| dc.subject | Estatística | |
| dc.subject | Análise de regressão | |
| dc.subject | Variedades (Matemática) | |
| dc.subject | LASSO (Estatística) | |
| dc.subject | Aprendizado do Computador | |
| dc.subject.other | Variable | |
| dc.subject.other | Sensitivity | |
| dc.subject.other | Lasso | |
| dc.subject.other | Selection methods | |
| dc.title | Comparative analysis of variable selection techniques | |
| dc.title.alternative | Análise comparativa de métodos de seleção de variáveis | |
| dc.type | Monografia de especialização | |
| local.contributor.advisor1 | Marcos Oliveira Prates | |
| local.contributor.advisor1Lattes | http://lattes.cnpq.br/7893235207392165 | |
| local.contributor.referee1 | Marcelo Azevedo Costa | |
| local.description.resumo | This study rigorously assesses various methods for selecting variables through simulation across 19 distinct scenarios, varying in sample size \(n\), number of variables \(p\), significance levels, beta coefficient strengths, and variable types (discrete and continuous). Traditional methods like Backward and Stepwise consistently demonstrated robust performance across different \(n\) values, whereas newer approaches such as SSGL showed enhanced efficacy in scenarios with larger \(p\) or stronger beta coefficients. All methods demonstrated high performance in most scenarios due to their ability to identify relevant variables, as evidenced by the sensitivity metric. Moreover, computational efficiency analysis revealed that LASSO required minimal processing time across all scenarios, contrasting with SSGL, which showed variable computation times influenced by beta strength, \(n\), and \(p\). Both Backward and Stepwise methods exhibited similar computational behavior, with Stepwise consistently requiring more time as \(p\) increased. Application to real-world data underscored the practical utility of these methods, supporting their selection based on specific data characteristics and performance objectives. This research contributes crucial insights for optimizing variable selection strategies in statistical modeling and predictive analytics. | |
| local.publisher.country | Brasil | |
| local.publisher.department | ICEX - INSTITUTO DE CIÊNCIAS EXATAS | |
| local.publisher.initials | UFMG | |
| local.publisher.program | Curso de Especialização em Estatística |