Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/RFFO-7KPNM9
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Sueli Aparecida Mingotipt_BR
dc.contributor.referee1Ela Mercedes Medrano de Toscanopt_BR
dc.contributor.referee2Arminda Lucia Siqueirapt_BR
dc.contributor.referee3Cibele Queiroz da Silvapt_BR
dc.creatorRenata Assis de Matospt_BR
dc.date.accessioned2019-08-11T14:40:09Z-
dc.date.available2019-08-11T14:40:09Z-
dc.date.issued2007-04-27pt_BR
dc.identifier.urihttp://hdl.handle.net/1843/RFFO-7KPNM9-
dc.description.abstractCluster Analysis is the name given to a group of several types of algorithms used to organize objects into groups taking into account the proximity that exists between them. Objects in the same group are as similar as possible to each other (internal cohesion) and are as dissimilar as possible to the objects in the different groups (external isolation). Cluster procedures are based upon two components: the proximity measure and the algorithm. Despite of the your wide applicability of these methods, the majority of the studies published in the literature focus on continuous variables. More recently attention has been given to new algorithms that can incorporate the information of ategoricalvariables. However, the recent papers do not compare these new methods in a proper way and the existence of different possibilities difficult the choice of the better method. In this dissertation a comparative study is performed. Five algorithms which are applicable for categorical variables and three which are applicable for both types of variables are examined. Among these last three algorithms, the extension of ROCK, which allows to cluster objects by using both types of variables is a new proposal of this dissertation. Besides that, it is also evaluated the influence of cluster overlapping, the number of groups, variables and categories, the correlation between the continuous variable and the choice of the weights of the combined proximity measure, that is used when the objects are clustered using the two types of variables.Based on the results of this dissertation it can be concluded that when the number of groups increase, independent of their structure, the performance of the clustering algorithms decreased. The effect of the increase of the number of variables and categories depends on the internal structure of the clusters. It was also noticed that the correlationbetween the continuous variables does not cause any effect on the percentage of correct classification and that the clustering methods have better results when in the combined proximity measure more weight is given to the continuous variables. In terms of efficiency, the ROCK algorithm had better performance all simulation studies of this dissertation.Keywords: Cluster analysis, categorical variables, continuous variables, Average Linkage,ROCK, k-Modes, k-Prototypes, Fuzzy c-Modes, k-Populationspt_BR
dc.description.resumoA análise de agrupamentos é um procedimento de estatística multivariada que engloba técnicas que objetivam organizar objetos em grupos de acordo com a proximidade existente entre eles. Os objetos de um mesmo grupo são tão similares quanto possível (coesão interna) e ao mesmo tempo tão dissimilares quanto possível dos objetos dos demais grupos (isolamento externo). Os métodos são compostos de dois elementos: a medida de proximidade e o algoritmo de agrupamento. Apesar da sua vasta aplicabilidade, desde o início do seu desenvolvimento o foco principal tem sido nas situações em que somente variáveis contínuas caracterizam os objetos. Atualmente é grande a necessidade de se considerar também a informação de variáveis categóricas. No entanto, os estudos encontrados na literatura envolvendo esse tipo de variável não comparam os métodos de forma adequada, fazendo com que a diversidade de possibilidades dificulte a escolha da melhor técnica.Nesta dissertação é feito um estudo comparativo de cinco algoritmos de análise de agrupamentos somente na presença de variáveis categóricas e de três metodologias que são aplicáveis para casos de variáveis categóricas e contínuas. Dentre esses, a extensão do método ROCK para o caso de mistura de variáveis é uma proposta desta dissertação. Avaliam-se também outras questões tais como o efeito do grau de separação e sobreposição, do número de grupos, de variáveis e de categorias, a correlação entre as variáveis contínuas e a atribuição de pesos da medida de proximidade combinada, usada quando há os dois tipos de variáveis caracterizando os objetos em análise. A comparação é feita a partir de um esquema de simulação e de estudos de aplicação prática e a medida de desempenho utilizada é a taxa de alocação correta.Pelos resultados obtidos, conclui-se que o aumento do número de grupos, independente da estrutura desses, prejudica o desempenho dos algoritmos. A influência do número de variáveis e de categorias depende da disposição dos grupos. Observou-se também que a correlação existente entre as variáveis contínuas não influenciou as taxas de alocação correta dos métodos e que esse têm melhores resultados quando é dado maior peso às variáveis contínuas na medida de proximidade combinada. Quanto à eficiência, o ROCK foi o algoritmo que se destacou nos estudos de simulação realizadospt_BR
dc.languagePortuguêspt_BR
dc.publisherUniversidade Federal de Minas Geraispt_BR
dc.publisher.initialsUFMGpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectComparaçapt_BR
dc.subject.otherEstatísticapt_BR
dc.subject.otherAnalise multivariadapt_BR
dc.subject.otherAnalise por conglomeradospt_BR
dc.titleComparação de metodologias aplicadas à analise de agrupamentos na presença de variáveis categóricas e contínuaspt_BR
dc.typeDissertação de Mestradopt_BR
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
disserta__o_renata_matos___vers_o_final.pdf1.11 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.