Novos critérios para seleção de modelos neurais em problemas de classificação com dados desbalanceados

Cristiano Leite de Castro

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/BUOS-8WHGE7

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Antonio de Padua Braga	pt_BR
dc.contributor.referee1	Marcelo Azevedo Costa	pt_BR
dc.contributor.referee2	Carlos Eduardo Pedreira	pt_BR
dc.contributor.referee3	Adrião Duarte Dória Neto	pt_BR
dc.contributor.referee4	Frederico Gadelha Guimaraes	pt_BR
dc.creator	Cristiano Leite de Castro	pt_BR
dc.date.accessioned	2019-08-09T18:21:09Z	-
dc.date.available	2019-08-09T18:21:09Z	-
dc.date.issued	2011-10-31	pt_BR
dc.identifier.uri	http://hdl.handle.net/1843/BUOS-8WHGE7	-
dc.description.abstract	Artificial Neural Network learners induced from complex and highlyimbalanced data sets tend to yield classification models that are biasedtowards the overrepresented (majority) class. Although someapproaches in the literature address this issue, they are limited in theformalization and theoretical characterization of the problem. Here, aformal analysis of the nature of class imbalance problem is describedbased on Bayesian Decision and Statistical Learning theories. Asshown the problem arises as a direct consequence of the minimizationof a (general) criteria based on the overall error rate and the level ofdistribution overlapping (noise). Furthermore, two new learning algorithms for MultiLayer Perceptron topology are designed: WEMLPand AUCMLP. Both are formulated from specific criteria for modelselection, which are different from the overall error. The cost functionfor WEMLP algorithm uses a parameter to assign unequal losses(costs) to the errors of each class. The AUCMLP algorithm optimizesa differentiable approximation of the Wilcoxon-Mann-Whitneystatistic, analogous metric to the AUC (Area Under the ROC Curve).In order to incorporate an effective strategy of controlling complexity(flexibility) of models, multiobjective (MOBJ) extensions forWEMLPand AUCMLP formulations are provided. Based on statistical analysisof significance of results on real data our approach shows a significantimprovement in the classification ranking quality, and achieveshigh and balanced accuracy rates for both classes.	pt_BR
dc.description.resumo	Redes Neurais Artificiais induzidas por conjuntos de treinamento complexos e altamente desbalanceados tendem a produzir modelos de classificação que favorecem a classe com maior probabilidade de ocorrência (majoritária). Embora na literatura existam soluções propostas para esse problema, apenas uma quantidade limitada de trabalhos tem investigado as suas causas e/ou proposto algum tipo de formalismo. Nesse trabalho, uma análise de cunho formal sobre a natureza do problema de classes desbalanceadas é descrita com base nas teorias de Decisão Bayesiana e Aprendizado Estatístico. É demonstrado que o problema surge como uma consequência direta da minimização de um critério baseado no Erro global, tendo como principal atenuante o nível de sobreposição (ruído) das distribuições. Adicionalmente, são desenvolvidos dois novos algoritmos de aprendizado para a topologia MultiLayer Perceptron: WEMLP e AUCMLP. Ambos são projetados a partir de critérios específicos para seleção de modelos, os quais são diferentes do Erro global. A função custo proposta para o algoritmo WEMLP utiliza um parâmetro para distinguir as perdas associadas a cada classe. O algoritmo AUCMLP otimiza uma aproximação diferenciável da estatística de Wilcoxon-Mann-Whitney. Extensões Multiobjetivo (MOBJ) para as formulações de WEMLP e AUCMLP são também propostas, com o propósito de se incorporar uma estratégia efetiva para o controle de complexidade (flexibilidade) de modelos. Testes estatísticos aplicados aos resultados empíricos obtidos com dados reais mostram a eficiência de nossa abordagem em melhorar o ranking de classificação e também, em obter taxas de acerto elevadas e equilibradas para ambas as classes.	pt_BR
dc.language	Português	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Engenharia Elétrica	pt_BR
dc.subject.other	Engenharia elétrica	pt_BR
dc.title	Novos critérios para seleção de modelos neurais em problemas de classificação com dados desbalanceados	pt_BR
dc.type	Tese de Doutorado	pt_BR
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
cristiano_leite_de_castro.pdf		1.46 MB	Adobe PDF	View/Open

Show simple item record