Comparação de metodologias aplicadas à analise de agrupamentos na presença de variáveis categóricas e contínuas

Renata Assis de Matos

Use este identificador para citar ou linkar para este item: http://hdl.handle.net/1843/RFFO-7KPNM9

Tipo:	Dissertação de Mestrado
Título:	Comparação de metodologias aplicadas à analise de agrupamentos na presença de variáveis categóricas e contínuas
Autor(es):	Renata Assis de Matos
Primeiro Orientador:	Sueli Aparecida Mingoti
Primeiro membro da banca :	Ela Mercedes Medrano de Toscano
Segundo membro da banca:	Arminda Lucia Siqueira
Terceiro membro da banca:	Cibele Queiroz da Silva
Resumo:	A análise de agrupamentos é um procedimento de estatística multivariada que engloba técnicas que objetivam organizar objetos em grupos de acordo com a proximidade existente entre eles. Os objetos de um mesmo grupo são tão similares quanto possível (coesão interna) e ao mesmo tempo tão dissimilares quanto possível dos objetos dos demais grupos (isolamento externo). Os métodos são compostos de dois elementos: a medida de proximidade e o algoritmo de agrupamento. Apesar da sua vasta aplicabilidade, desde o início do seu desenvolvimento o foco principal tem sido nas situações em que somente variáveis contínuas caracterizam os objetos. Atualmente é grande a necessidade de se considerar também a informação de variáveis categóricas. No entanto, os estudos encontrados na literatura envolvendo esse tipo de variável não comparam os métodos de forma adequada, fazendo com que a diversidade de possibilidades dificulte a escolha da melhor técnica.Nesta dissertação é feito um estudo comparativo de cinco algoritmos de análise de agrupamentos somente na presença de variáveis categóricas e de três metodologias que são aplicáveis para casos de variáveis categóricas e contínuas. Dentre esses, a extensão do método ROCK para o caso de mistura de variáveis é uma proposta desta dissertação. Avaliam-se também outras questões tais como o efeito do grau de separação e sobreposição, do número de grupos, de variáveis e de categorias, a correlação entre as variáveis contínuas e a atribuição de pesos da medida de proximidade combinada, usada quando há os dois tipos de variáveis caracterizando os objetos em análise. A comparação é feita a partir de um esquema de simulação e de estudos de aplicação prática e a medida de desempenho utilizada é a taxa de alocação correta.Pelos resultados obtidos, conclui-se que o aumento do número de grupos, independente da estrutura desses, prejudica o desempenho dos algoritmos. A influência do número de variáveis e de categorias depende da disposição dos grupos. Observou-se também que a correlação existente entre as variáveis contínuas não influenciou as taxas de alocação correta dos métodos e que esse têm melhores resultados quando é dado maior peso às variáveis contínuas na medida de proximidade combinada. Quanto à eficiência, o ROCK foi o algoritmo que se destacou nos estudos de simulação realizados
Abstract:	Cluster Analysis is the name given to a group of several types of algorithms used to organize objects into groups taking into account the proximity that exists between them. Objects in the same group are as similar as possible to each other (internal cohesion) and are as dissimilar as possible to the objects in the different groups (external isolation). Cluster procedures are based upon two components: the proximity measure and the algorithm. Despite of the your wide applicability of these methods, the majority of the studies published in the literature focus on continuous variables. More recently attention has been given to new algorithms that can incorporate the information of ategoricalvariables. However, the recent papers do not compare these new methods in a proper way and the existence of different possibilities difficult the choice of the better method. In this dissertation a comparative study is performed. Five algorithms which are applicable for categorical variables and three which are applicable for both types of variables are examined. Among these last three algorithms, the extension of ROCK, which allows to cluster objects by using both types of variables is a new proposal of this dissertation. Besides that, it is also evaluated the influence of cluster overlapping, the number of groups, variables and categories, the correlation between the continuous variable and the choice of the weights of the combined proximity measure, that is used when the objects are clustered using the two types of variables.Based on the results of this dissertation it can be concluded that when the number of groups increase, independent of their structure, the performance of the clustering algorithms decreased. The effect of the increase of the number of variables and categories depends on the internal structure of the clusters. It was also noticed that the correlationbetween the continuous variables does not cause any effect on the percentage of correct classification and that the clustering methods have better results when in the combined proximity measure more weight is given to the continuous variables. In terms of efficiency, the ROCK algorithm had better performance all simulation studies of this dissertation.Keywords: Cluster analysis, categorical variables, continuous variables, Average Linkage,ROCK, k-Modes, k-Prototypes, Fuzzy c-Modes, k-Populations
Assunto:	Estatística Analise multivariada Analise por conglomerados
Idioma:	Português
Editor:	Universidade Federal de Minas Gerais
Sigla da Instituição:	UFMG
Tipo de Acesso:	Acesso Aberto
URI:	http://hdl.handle.net/1843/RFFO-7KPNM9
Data do documento:	27-Abr-2007
Aparece nas coleções:	Dissertações de Mestrado

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
disserta__o_renata_matos___vers_o_final.pdf		1.11 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas