Please use this identifier to cite or link to this item:
http://hdl.handle.net/1843/34069
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor1 | Wagner Meira Junior | pt_BR |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/9092587237114334 | pt_BR |
dc.contributor.advisor2 | Renato Martins Assunção | pt_BR |
dc.contributor.advisor2Lattes | http://lattes.cnpq.br/3575559872183767 | pt_BR |
dc.contributor.referee1 | Rosangela Helena Loschi | pt_BR |
dc.contributor.referee2 | Denis Deratani Mauá | pt_BR |
dc.contributor.referee3 | Fabrício Murai Ferreira | pt_BR |
dc.creator | Tulio Lima Criscuolo | pt_BR |
dc.creator.Lattes | http://lattes.cnpq.br/3857763744325044 | pt_BR |
dc.date.accessioned | 2020-08-28T19:10:39Z | - |
dc.date.available | 2020-08-28T19:10:39Z | - |
dc.date.issued | 2019-10-25 | - |
dc.identifier.uri | http://hdl.handle.net/1843/34069 | - |
dc.description.abstract | O tratamento de atributos categóricos com uma grande quantidade de categorias é um problema recorrente em análise de dados. Existem poucas propostas na literatura para lidar com este problema importante e recorrente. Introduzimos um modelo generativo, que simultaneamente estima os parâmetros e o agrupamento do atributo categórico em grupos. Nossa proposta é baseada em impor um grafo no qual os nós correspondem a categorias e criando uma distribuição de probabilidade sobre partições deste grafo. Sendo um modelo Bayesiano, somos capazes de fazer inferência a posteriori sobre os seus parâmetros e o particionamento do atributo categórico. Comparamos nosso mod- elo com métodos estado da arte e mostramos que obtemos uma capacidade preditiva igualmente boa e melhor interpretação dos resultados obtidos. | pt_BR |
dc.description.resumo | A common difficulty in data analysis is how to handle categorical predictors with a large number of levels or categories. There are few proposals developed in the literature to handle this important and frequent problem. We introduce a generative model that simultaneously carries out the model fitting and the aggregation of the categorical levels into larger groups. Our approach is based on imposing a graph where the nodes are categories and creating a probability distribution over meaningful partitions of this graph. Being a Bayesian model, it allows the posterior inference, including uncertainty measurement, on the estimated parameters and the categories partition. We compare our method with the state-of-art methods showing that it has equally good predictive performance and much better interpretation ability. Given the current concern on balancing accuracy versus interpretability, our proposal reaches an excellent result. | pt_BR |
dc.description.sponsorship | CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico | pt_BR |
dc.language | eng | pt_BR |
dc.publisher | Universidade Federal de Minas Gerais | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.department | ICEX - INSTITUTO DE CIÊNCIAS EXATAS | pt_BR |
dc.publisher.program | Programa de Pós-Graduação em Ciência da Computação | pt_BR |
dc.publisher.initials | UFMG | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.subject | Hierarchical Model | pt_BR |
dc.subject | Regression | pt_BR |
dc.subject | Clustering | pt_BR |
dc.subject | Dimensionality Reduction | pt_BR |
dc.subject.other | Modelo Hierárquico | pt_BR |
dc.subject.other | Regressão | pt_BR |
dc.subject.other | Clusterização | pt_BR |
dc.subject.other | Redução de dimensão | pt_BR |
dc.title | Product partition model for categorical features | pt_BR |
dc.title.alternative | Modelo partição produto para atributos categóricos | pt_BR |
dc.type | Dissertação | pt_BR |
Appears in Collections: | Dissertações de Mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
TulioLimaCriscuolo_substituicaofinal.pdf | 10.38 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.