Uma avaliação da utilização de matrizes de afinidades na validação de agrupamentos de dados

Rafael Xavier Valente

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/BUOS-9N7J5V

Type:	Dissertação de Mestrado
Title:	Uma avaliação da utilização de matrizes de afinidades na validação de agrupamentos de dados
Authors:	Rafael Xavier Valente
First Advisor:	Antonio de Padua Braga
First Referee:	Lenin Martins Ferreira Morais
Second Referee:	Felipe Campelo França Pinto
Abstract:	Diferentemente de um problema de aprendizado de máquina supervisionado, onde busca-se encontrar uma função aproximadora a partir de um conjunto de dados rotulados, os problemas não supervisionados não possuem rótulos para guiar o processo de aprendizagem. Sendo assim, um critério deve ser adotado para o estabelecimento dos agrupamentos. O problema desta abordagem é que usualmente as funções objetivo utilizadas são degeneradas em relação ao número de agrupamentos, ou seja, a otimização da função alvo não provê o número ótimo de agrupamentos para determinado conjunto de dados. Neste caso, é realizado o particionamento dos dados para alguns valores de número de grupos e de acordo com alguma métrica as partições são avaliadas comparativamente para selecionar a quantidade ótima de grupos. Neste trabalho, procura-se implementar uma nova métrica para a identificação do número de grupos de bases de dados que possuam agrupamentos compactos. Para tanto, utiliza-se da matriz de partição fuzzy obtida através do método Fuzzy C-Means (FCM) e calcula-se uma matriz de proximidade entre os elementos. A partir da matriz de proximidade são extraídas medidas estatísticas dos grupos para compor um índice comparativo, utilizado para estimar a partição que melhor se adequa à métrica proposta. Além disto, a matriz de proximidade possibilita ao usuário final visualizar os agrupamentos em duas dimensões para a validação dos resultados obtidos. A fim de demonstrar a validade do método proposto, são realizados experimentos com bases de dados sintéticas e de referência. Os resultados obtidos para os casos controlados, onde a função geradora dos dados é conhecida, corroboram a hipótese da métrica desenvolvida. Já para as bases de referência, os resultados obtidos são comparados com outras métricas da literatura para a sua validação. Os resultados experimentais obtidos neste caso mostram que as abordagens apresentadas são consistentes com outras métricas bem conhecidas. Nestes casos, a matriz de proximidade apresentada é primordial para a validação dos resultados e visualização da conformidade da partição obtida com a estrutura intrínseca dos dados.
Abstract:	Differently from a supervised machine learning problem, where one seeks to find an approximate function from a labeled dataset, the unsupervised problems does not contain any information to guide the learning process. In this case, a criterion must be adopted for the establishment of the partitions. The problem with this approach is that usually the objective functions commonly used are degenerated according to the number of groups, thus the simple optimization of the adopted criterion is not able to provide the optimum number of partitions for a given dataset. Therefore, partitions for differente number of groups are performed and according to another metric these partitions are comparatively evaluated to select the optimum number of groups. In this work a new metric is proposed to identify the number of groups from datasets which can be clustered in compact clusters. In order to achieve the objective, the fuzzy partition matrix obtained from an algorithm like Fuzzy C-Means (FCM) is used to calculate a proximity matrix between the objects. Some factors are then calculated from the proximity matrix to compose the final index that will be used to compare the partitions and select the one which most agree which the proposed metric. Yet, the proximity matrix calculated makes it possible for the final user to visualize the clusters in two dimensions to validate the obtained results. To demonstrate the validity of the proposed metric, experiments with synthetics and real datasets are provided. The results obtained for the controlled cases, where the datasets generator functions are known, show the validity of the development metric. For the real datasets, the obtained results are compared with other metrics to validate it. In this case, the results obtained show the new approach are consistent with other well-known metrics. In these cases, the proximity matrix presented are primordial to visualize the partitions and consequently validate it against the intrinsic structures of the datasets.
Subject:	Engenharia elétrica
language:	Português
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
Rights:	Acesso Aberto
URI:	http://hdl.handle.net/1843/BUOS-9N7J5V
Issue Date:	25-Oct-2013
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
ppgee_797_rafael_valente.pdf		4.96 MB	Adobe PDF	View/Open

Show full item record