Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/BUOS-9N7J5V
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Antonio de Padua Bragapt_BR
dc.contributor.referee1Lenin Martins Ferreira Moraispt_BR
dc.contributor.referee2Felipe Campelo França Pintopt_BR
dc.creatorRafael Xavier Valentept_BR
dc.date.accessioned2019-08-14T11:30:06Z-
dc.date.available2019-08-14T11:30:06Z-
dc.date.issued2013-10-25pt_BR
dc.identifier.urihttp://hdl.handle.net/1843/BUOS-9N7J5V-
dc.description.abstractDifferently from a supervised machine learning problem, where one seeks to find an approximate function from a labeled dataset, the unsupervised problems does not contain any information to guide the learning process. In this case, a criterion must be adopted for the establishment of the partitions. The problem with this approach is that usually the objective functions commonly used are degenerated according to the number of groups, thus the simple optimization of the adopted criterion is not able to provide the optimum number of partitions for a given dataset. Therefore, partitions for differente number of groups are performed and according to another metric these partitions are comparatively evaluated to select the optimum number of groups. In this work a new metric is proposed to identify the number of groups from datasets which can be clustered in compact clusters. In order to achieve the objective, the fuzzy partition matrix obtained from an algorithm like Fuzzy C-Means (FCM) is used to calculate a proximity matrix between the objects. Some factors are then calculated from the proximity matrix to compose the final index that will be used to compare the partitions and select the one which most agree which the proposed metric. Yet, the proximity matrix calculated makes it possible for the final user to visualize the clusters in two dimensions to validate the obtained results. To demonstrate the validity of the proposed metric, experiments with synthetics and real datasets are provided. The results obtained for the controlled cases, where the datasets generator functions are known, show the validity of the development metric. For the real datasets, the obtained results are compared with other metrics to validate it. In this case, the results obtained show the new approach are consistent with other well-known metrics. In these cases, the proximity matrix presented are primordial to visualize the partitions and consequently validate it against the intrinsic structures of the datasets.pt_BR
dc.description.resumoDiferentemente de um problema de aprendizado de máquina supervisionado, onde busca-se encontrar uma função aproximadora a partir de um conjunto de dados rotulados, os problemas não supervisionados não possuem rótulos para guiar o processo de aprendizagem. Sendo assim, um critério deve ser adotado para o estabelecimento dos agrupamentos. O problema desta abordagem é que usualmente as funções objetivo utilizadas são degeneradas em relação ao número de agrupamentos, ou seja, a otimização da função alvo não provê o número ótimo de agrupamentos para determinado conjunto de dados. Neste caso, é realizado o particionamento dos dados para alguns valores de número de grupos e de acordo com alguma métrica as partições são avaliadas comparativamente para selecionar a quantidade ótima de grupos. Neste trabalho, procura-se implementar uma nova métrica para a identificação do número de grupos de bases de dados que possuam agrupamentos compactos. Para tanto, utiliza-se da matriz de partição fuzzy obtida através do método Fuzzy C-Means (FCM) e calcula-se uma matriz de proximidade entre os elementos. A partir da matriz de proximidade são extraídas medidas estatísticas dos grupos para compor um índice comparativo, utilizado para estimar a partição que melhor se adequa à métrica proposta. Além disto, a matriz de proximidade possibilita ao usuário final visualizar os agrupamentos em duas dimensões para a validação dos resultados obtidos. A fim de demonstrar a validade do método proposto, são realizados experimentos com bases de dados sintéticas e de referência. Os resultados obtidos para os casos controlados, onde a função geradora dos dados é conhecida, corroboram a hipótese da métrica desenvolvida. Já para as bases de referência, os resultados obtidos são comparados com outras métricas da literatura para a sua validação. Os resultados experimentais obtidos neste caso mostram que as abordagens apresentadas são consistentes com outras métricas bem conhecidas. Nestes casos, a matriz de proximidade apresentada é primordial para a validação dos resultados e visualização da conformidade da partição obtida com a estrutura intrínseca dos dados.pt_BR
dc.languagePortuguêspt_BR
dc.publisherUniversidade Federal de Minas Geraispt_BR
dc.publisher.initialsUFMGpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectAprendizado não supervisionadopt_BR
dc.subjectMétodos de agrupamentospt_BR
dc.subjectMatriz de proximidadept_BR
dc.subjectÍndices de validação de agrupamentospt_BR
dc.subject.otherEngenharia elétricapt_BR
dc.titleUma avaliação da utilização de matrizes de afinidades na validação de agrupamentos de dadospt_BR
dc.typeDissertação de Mestradopt_BR
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
ppgee_797_rafael_valente.pdf4.96 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.