Exploring imbalanced data challenges: oversampling efficacy and sample size estimation

Carregando...
Imagem de Miniatura

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Minas Gerais

Descrição

Tipo

Tese de doutorado

Título alternativo

Explorando desafios de dados desequilibrados: eficácia da sobreamostragem e estimativa do tamanho da amostra

Primeiro orientador

Membros da banca

Uriel Moreira Silva
Anderson Luiz Ara Souza
Paulo Henrique Ferreira da Silva
Rafael Bassi Stern

Resumo

O desbalanceamento de classes impacta a precisão e generalização de modelos preditivos, tornando essencial a busca por estratégias eficientes para mitigar esse problema. Nesta tese, investigamos a eficácia das técnicas de oversampling e propomos um método para a estimação do tamanho ideal da amostra em classificações desbalanceadas. Os resultados indicam que a otimização do limiar de decisão pode substituir a necessidade de geração de dados sintéticos, reduzindo a dependência do oversampling. Além disso, a metodologia desenvolvida permite estimar o tamanho de amostra necessário para garantir classificações mais estáveis, evitando coletas excessivas de dados. Assim, esta pesquisa contribui para o entendimento do impacto das técnicas de balanceamento e fornece alternativas mais eficientes para melhorar a performance dos modelos. A abordagem proposta permite decisões mais fundamentadas sobre amostragem e pré-processamento, minimizando o uso de manipulações artificiais nos dados.

Abstract

Class imbalance affects the accuracy and generalization of predictive models, making it essential to explore efficient strategies to mitigate this issue. In this thesis, we investigate the effectiveness of oversampling techniques and propose a method for estimating the optimal sample size in imbalanced classification problems. The results indicate that optimizing the decision threshold can replace the need for synthetic data generation, reducing reliance on oversampling. Additionally, the proposed methodology allows for the estimation of the necessary sample size to ensure more stable classifications, avoiding excessive data collection. Thus, this research contributes to understanding the impact of balancing techniques and provides more efficient alternatives for improving model performance. The proposed approach enables more informed decisions regarding sampling and preprocessing, minimizing the need for artificial data manipulation.

Assunto

Estatística – Teses, Probabilidades - Teses, Aprendizado do computador – Teses, Amostragem (Estatística) – Teses

Palavras-chave

Machine learning, Data augmentation, Sample size

Citação

Endereço externo

Avaliação

Revisão

Suplementado Por

Referenciado Por