LORC: classificação supervisionada baseada em grafos esparsos, robusta para dados com ruído no rótulo

Leticia Cavalari Pinheiro

Use este identificador para citar o ir al link de este elemento: http://hdl.handle.net/1843/BUBD-A3JHWV

Tipo:	Tese de Doutorado
Título:	LORC: classificação supervisionada baseada em grafos esparsos, robusta para dados com ruído no rótulo
Autor(es):	Leticia Cavalari Pinheiro
primer Tutor:	Renato Martins Assuncao
primer miembro del tribunal :	Ronaldo Dias
Segundo miembro del tribunal:	Alexandre Loureiros Rodrigues
Tercer miembro del tribunal:	Marcos Oliveira Prates
Cuarto miembro del tribunal:	Vinicius Diniz Mayrink
Resumen:	Este trabalho apresenta e desenvolve novas metodologias para classificação supervisionada, baseadas em grafos esparços. A idéia inicial é utilizar as instâncias do conjunto de dados de treinamento do modelo para construir uma árvore geradora mínima (AGM) a partir das distâncias entre atributos e, posteriormente, obter uma partição do grafo ao podar arestas desta AGM utilizando uma medida de dissimilaridade calculada a partir dos rótulos. Essa partição definirá as regiões de classificação que buscam equilibrar grandes homogeneidades internas e grande heterogeneidade entre elas, proporcionando bons resultados de posteriores classificações de instâncias com rótulos desconhecidos. Um grande avanço apresentado pela metodologia desenvolvida neste trabalho é a potencial melhora na classificação quando o conjunto de dados de treinamento apresenta ruído no rótulo. Este tipo de ruído nos dados é bastante comum e acarreta prejuízos no desempenho de métodos tradicionais de classificação supervisionada. Basicamente, este trabalho explora os temas de classificação supervisionada e de ruído no rótulo, apresenta uma metodologia de classificação com 4 variações possíveis, proporcionando possibilidades de adequação aos dados, demonstra a eficiência do método em determinados tipos de conjuntos de dados e comprova a qualidade da classificação realizada através de comparações com outros métodos popularmente utilizados. Os resultados são promissores.
Abstract:	This thesis presents the development of a new supervised classification method based in sparse graphs. The basic idea is to learn from data instances to build a minimum spanning tree (MST), based on the distances between attributes. Based on a dissimilarity measure calculated from the labels, we obtain a graph partition by pruning the MST edges. This partition defines the classification regions that seek to balance major intra-region homogeneity and great inter-region heterogeneity, providing good results for posterior classifications of instances with unknown labels. A great advancement presented by the developed methodology is the potential classification improvement when the training datasets have label noise. This type of noise is common and impairs the performance of most classification methods. This thesis includes a study about supervised classification and label noise data, the development of a new classification methodology with 4 possible variations making possible to adapt to diferent datasets, the proof of its efficiency under some assumptions, and the quality verification based on comparisions with other popular methods. The results are promising.
Asunto:	Estatistica
Idioma:	Português
Editor:	Universidade Federal de Minas Gerais
Sigla da Institución:	UFMG
Tipo de acceso:	Acesso Aberto
URI:	http://hdl.handle.net/1843/BUBD-A3JHWV
Fecha del documento:	26-jun-2015
Aparece en las colecciones:	Teses de Doutorado

archivos asociados a este elemento:

archivo	Descripción	Tamaño	Formato
tese_vers_o_final_let_cia_cavalari_pinheiro.pdf		721.92 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo del elemento Visualizar estadísticas