Um estudo sobre métodos de Kernel para classificação e agrupamento de dados

Francisco Alberto de Andrade Queiroz

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/BUOS-8D7LUR

Type:	Dissertação de Mestrado
Title:	Um estudo sobre métodos de Kernel para classificação e agrupamento de dados
Authors:	Francisco Alberto de Andrade Queiroz
First Advisor:	Antonio de Padua Braga
Abstract:	O projeto de máquinas de aprendizagem envolve a modelagem de um conjunto de amostras tendo como base o desempenho do mapeamento dos pares entrada-saída. O grupo de amostras reservado ao treinamento fornece informações para a determinação dos parâmetros do modelo. E o grupo de validação e/ou de teste avalia o desempenho do classificador quanto à sua capacidade de generalização. Entretanto, o classificador obtido ao final desse processo na maioria dos casos não incorpora as relações de similaridade entre as amostras e as classes. Essa metodologia, portanto, resulta em uma modelagem incompleta das informações contidas nos dados. Neste trabalho, procura-se lidar ao mesmo tempo com o problema básico da análise de dados e com o projeto de máquinas de núcleo (ou de kernel): determinar o número de grupos em um conjunto de amostras e os parâmetros da função do núcleo escolhido. Para tanto, utiliza-se como métrica o Alinhamento Empírico para determinar a similaridade entre a matriz de núcleo e a de proximidade resultante do C-Médias Nebuloso (FCM). Mostra-se que a métrica escolhida pode ser maximizada em função dos parâmetros do FCM e da função do núcleo. O alinhamento é maior quanto maior é a coerência entre a informação estrutural embutida dos dados nas duas matrizes. No entanto, a determinação dos parâmetros não é possível por métodos diretos de ajuste. Sendo assim, o Algoritmo Genético e a Otimização por Enxames de Partículas são os métodos evolutivos escolhidos para encontrar aproximações dos parâmetros que, ao resolverem o problema de otimização mono-objetivo formulado, maximizem a métrica escolhida. Os parâmetros obtidos são utilizados em Máquinas de Vetor de Suporte por Mínimos Quadrados (LS-SVMs) segundo a metodologia aqui proposta para o projeto de classificadores. Utilizando os métodos Minus e de autovetor para ordenação das amostras nas matrizes referidas, é possível observar a similaridade entre indivíduos de cada um dos grupos e obter outras informações que auxiliam na caracterização desses últimos. Por meio de experimentos com bases de dados de teste e de referência, obtêm-se resultados que corroboram a escolha da métrica e dos métodos utilizados nas referidas bases para agrupamento e classificação binária. Além disso, no âmbito do problema citado inicialmente, as observações fornecidas suscitam maior conhecimento sobre as relações e os métodos empregados, permitindo a utilização apropriada da informação estrutural dos dados.
Abstract:	The learning machines project involves modelling a set of samples based on the mapping performance of the input-output pairs. The group of samples submitted to training provides information for determining the parameters of the model. And the validation and/or test group evaluates the performance of the classifier on its generalization ability. However, the classifier obtained at the end of this process in most cases does not embody the relationship of similarity between samples and classes. This approach therefore results in an incomplete modelling of the information provided by the data. In this work, we deal simultaneously with the basic problem of data analysis and of the project of kernel learning machines: the number of groups in a set of samples and the chosen parameters of the core function. For both, the metric used is the Empirical Alignment to determine similarity between the kernel and the proximity matrix of Fuzzy C-Means (FCM). It is shown that the metric chosen can be maximized depending on the parameters of the FCM and of the core function. The greater the consistency between the structural information embedded in the two data matrices, the higher is the alignment. However, the determination of parameters is not possible by direct adjustment methods. Thus, by solving the problem of mono-objective optimization formulated, the Genetic Algorithm and the Particle Swarm Optimization are the evolutionary methods chosen to find approximations of the parameters which maximize the chosen metric. The parameters obtained are used in Least Square Support Vector Machines (LS-SVMs) according to the methodology proposed here for designing classifiers. Using the eigenvector and Minus methods for ordering the samples in these matrices, it is possible to observe the similarity between individuals of each group and additional information to help characterize the latter. Through experiments using test and reference databases, the results obtained here corroborate the metric and the methods used in these databases for binary classification and clustering. Moreover, under the initially aforementioned problem, the provided observations raise greater awareness about the relationships and the methods employed, allowing for better use of the structural information of the data.
Subject:	Engenharia elétrica
language:	Português
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
Rights:	Acesso Aberto
URI:	http://hdl.handle.net/1843/BUOS-8D7LUR
Issue Date:	25-Aug-2009
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
francisco_alberto_de_andrade_queiroz.pdf		36.8 MB	Adobe PDF	View/Open

Show full item record