Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/34069
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Wagner Meira Juniorpt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/9092587237114334pt_BR
dc.contributor.advisor2Renato Martins Assunçãopt_BR
dc.contributor.advisor2Latteshttp://lattes.cnpq.br/3575559872183767pt_BR
dc.contributor.referee1Rosangela Helena Loschipt_BR
dc.contributor.referee2Denis Deratani Mauápt_BR
dc.contributor.referee3Fabrício Murai Ferreirapt_BR
dc.creatorTulio Lima Criscuolopt_BR
dc.creator.Latteshttp://lattes.cnpq.br/3857763744325044pt_BR
dc.date.accessioned2020-08-28T19:10:39Z-
dc.date.available2020-08-28T19:10:39Z-
dc.date.issued2019-10-25-
dc.identifier.urihttp://hdl.handle.net/1843/34069-
dc.description.abstractO tratamento de atributos categóricos com uma grande quantidade de categorias é um problema recorrente em análise de dados. Existem poucas propostas na literatura para lidar com este problema importante e recorrente. Introduzimos um modelo generativo, que simultaneamente estima os parâmetros e o agrupamento do atributo categórico em grupos. Nossa proposta é baseada em impor um grafo no qual os nós correspondem a categorias e criando uma distribuição de probabilidade sobre partições deste grafo. Sendo um modelo Bayesiano, somos capazes de fazer inferência a posteriori sobre os seus parâmetros e o particionamento do atributo categórico. Comparamos nosso mod- elo com métodos estado da arte e mostramos que obtemos uma capacidade preditiva igualmente boa e melhor interpretação dos resultados obtidos.pt_BR
dc.description.resumoA common difficulty in data analysis is how to handle categorical predictors with a large number of levels or categories. There are few proposals developed in the literature to handle this important and frequent problem. We introduce a generative model that simultaneously carries out the model fitting and the aggregation of the categorical levels into larger groups. Our approach is based on imposing a graph where the nodes are categories and creating a probability distribution over meaningful partitions of this graph. Being a Bayesian model, it allows the posterior inference, including uncertainty measurement, on the estimated parameters and the categories partition. We compare our method with the state-of-art methods showing that it has equally good predictive performance and much better interpretation ability. Given the current concern on balancing accuracy versus interpretability, our proposal reaches an excellent result.pt_BR
dc.description.sponsorshipCNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológicopt_BR
dc.languageengpt_BR
dc.publisherUniversidade Federal de Minas Geraispt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentICEX - INSTITUTO DE CIÊNCIAS EXATASpt_BR
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computaçãopt_BR
dc.publisher.initialsUFMGpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectHierarchical Modelpt_BR
dc.subjectRegressionpt_BR
dc.subjectClusteringpt_BR
dc.subjectDimensionality Reductionpt_BR
dc.subject.otherModelo Hierárquicopt_BR
dc.subject.otherRegressãopt_BR
dc.subject.otherClusterizaçãopt_BR
dc.subject.otherRedução de dimensãopt_BR
dc.titleProduct partition model for categorical featurespt_BR
dc.title.alternativeModelo partição produto para atributos categóricospt_BR
dc.typeDissertaçãopt_BR
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
TulioLimaCriscuolo_substituicaofinal.pdf10.38 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.