LORC: classificação supervisionada baseada em grafos esparsos, robusta para dados com ruído no rótulo

Leticia Cavalari Pinheiro

Use este identificador para citar ou linkar para este item: http://hdl.handle.net/1843/BUBD-A3JHWV

Tipo:	Tese de Doutorado
Título:	LORC: classificação supervisionada baseada em grafos esparsos, robusta para dados com ruído no rótulo
Autor(es):	Leticia Cavalari Pinheiro
Primeiro Orientador:	Renato Martins Assuncao
Primeiro membro da banca :	Ronaldo Dias
Segundo membro da banca:	Alexandre Loureiros Rodrigues
Terceiro membro da banca:	Marcos Oliveira Prates
Quarto membro da banca:	Vinicius Diniz Mayrink
Resumo:	Este trabalho apresenta e desenvolve novas metodologias para classificação supervisionada, baseadas em grafos esparços. A idéia inicial é utilizar as instâncias do conjunto de dados de treinamento do modelo para construir uma árvore geradora mínima (AGM) a partir das distâncias entre atributos e, posteriormente, obter uma partição do grafo ao podar arestas desta AGM utilizando uma medida de dissimilaridade calculada a partir dos rótulos. Essa partição definirá as regiões de classificação que buscam equilibrar grandes homogeneidades internas e grande heterogeneidade entre elas, proporcionando bons resultados de posteriores classificações de instâncias com rótulos desconhecidos. Um grande avanço apresentado pela metodologia desenvolvida neste trabalho é a potencial melhora na classificação quando o conjunto de dados de treinamento apresenta ruído no rótulo. Este tipo de ruído nos dados é bastante comum e acarreta prejuízos no desempenho de métodos tradicionais de classificação supervisionada. Basicamente, este trabalho explora os temas de classificação supervisionada e de ruído no rótulo, apresenta uma metodologia de classificação com 4 variações possíveis, proporcionando possibilidades de adequação aos dados, demonstra a eficiência do método em determinados tipos de conjuntos de dados e comprova a qualidade da classificação realizada através de comparações com outros métodos popularmente utilizados. Os resultados são promissores.
Abstract:	This thesis presents the development of a new supervised classification method based in sparse graphs. The basic idea is to learn from data instances to build a minimum spanning tree (MST), based on the distances between attributes. Based on a dissimilarity measure calculated from the labels, we obtain a graph partition by pruning the MST edges. This partition defines the classification regions that seek to balance major intra-region homogeneity and great inter-region heterogeneity, providing good results for posterior classifications of instances with unknown labels. A great advancement presented by the developed methodology is the potential classification improvement when the training datasets have label noise. This type of noise is common and impairs the performance of most classification methods. This thesis includes a study about supervised classification and label noise data, the development of a new classification methodology with 4 possible variations making possible to adapt to diferent datasets, the proof of its efficiency under some assumptions, and the quality verification based on comparisions with other popular methods. The results are promising.
Assunto:	Estatistica
Idioma:	Português
Editor:	Universidade Federal de Minas Gerais
Sigla da Instituição:	UFMG
Tipo de Acesso:	Acesso Aberto
URI:	http://hdl.handle.net/1843/BUBD-A3JHWV
Data do documento:	26-Jun-2015
Aparece nas coleções:	Teses de Doutorado

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
tese_vers_o_final_let_cia_cavalari_pinheiro.pdf		721.92 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas