Exploring imbalanced data challenges: oversampling efficacy and sample size estimation
Carregando...
Arquivos
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Tese de doutorado
Título alternativo
Explorando desafios de dados desequilibrados: eficácia da sobreamostragem e estimativa do tamanho da amostra
Primeiro orientador
Membros da banca
Uriel Moreira Silva
Anderson Luiz Ara Souza
Paulo Henrique Ferreira da Silva
Rafael Bassi Stern
Anderson Luiz Ara Souza
Paulo Henrique Ferreira da Silva
Rafael Bassi Stern
Resumo
O desbalanceamento de classes impacta a precisão e generalização de modelos preditivos, tornando essencial a busca por estratégias eficientes para mitigar esse problema. Nesta tese, investigamos a eficácia das técnicas de oversampling e propomos um método para a estimação do tamanho ideal da amostra em classificações desbalanceadas. Os resultados indicam que a otimização do limiar de decisão pode substituir a necessidade de geração de dados sintéticos, reduzindo a dependência do oversampling. Além disso, a metodologia desenvolvida permite estimar o tamanho de amostra necessário para garantir classificações mais estáveis, evitando coletas excessivas de dados. Assim, esta pesquisa contribui para o entendimento do impacto das técnicas de balanceamento e fornece alternativas mais eficientes para melhorar a performance dos modelos. A abordagem proposta permite decisões mais fundamentadas sobre amostragem e pré-processamento, minimizando o uso de manipulações artificiais nos dados.
Abstract
Class imbalance affects the accuracy and generalization of predictive models, making it essential to explore efficient strategies to mitigate this issue. In this thesis, we investigate the effectiveness of oversampling techniques and propose a method for estimating the optimal sample size in imbalanced classification problems. The results indicate that optimizing the decision threshold can replace the need for synthetic data generation, reducing reliance on oversampling. Additionally, the proposed methodology allows for the estimation of the necessary sample size to ensure more stable classifications, avoiding excessive data collection. Thus, this research contributes to understanding the impact of balancing techniques and provides more efficient alternatives for improving model performance. The proposed approach enables more informed decisions regarding sampling and preprocessing, minimizing the need for artificial data manipulation.
Assunto
Estatística – Teses, Probabilidades - Teses, Aprendizado do computador – Teses, Amostragem (Estatística) – Teses
Palavras-chave
Machine learning, Data augmentation, Sample size