Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/34069
Type: Dissertação
Title: Product partition model for categorical features
Other Titles: Modelo partição produto para atributos categóricos
Authors: Tulio Lima Criscuolo
First Advisor: Wagner Meira Junior
metadata.dc.contributor.advisor2: Renato Martins Assunção
First Referee: Rosangela Helena Loschi
Second Referee: Denis Deratani Mauá
Third Referee: Fabrício Murai Ferreira
Abstract: A common difficulty in data analysis is how to handle categorical predictors with a large number of levels or categories. There are few proposals developed in the literature to handle this important and frequent problem. We introduce a generative model that simultaneously carries out the model fitting and the aggregation of the categorical levels into larger groups. Our approach is based on imposing a graph where the nodes are categories and creating a probability distribution over meaningful partitions of this graph. Being a Bayesian model, it allows the posterior inference, including uncertainty measurement, on the estimated parameters and the categories partition. We compare our method with the state-of-art methods showing that it has equally good predictive performance and much better interpretation ability. Given the current concern on balancing accuracy versus interpretability, our proposal reaches an excellent result.
Abstract: O tratamento de atributos categóricos com uma grande quantidade de categorias é um problema recorrente em análise de dados. Existem poucas propostas na literatura para lidar com este problema importante e recorrente. Introduzimos um modelo generativo, que simultaneamente estima os parâmetros e o agrupamento do atributo categórico em grupos. Nossa proposta é baseada em impor um grafo no qual os nós correspondem a categorias e criando uma distribuição de probabilidade sobre partições deste grafo. Sendo um modelo Bayesiano, somos capazes de fazer inferência a posteriori sobre os seus parâmetros e o particionamento do atributo categórico. Comparamos nosso mod- elo com métodos estado da arte e mostramos que obtemos uma capacidade preditiva igualmente boa e melhor interpretação dos resultados obtidos.
Subject: Modelo Hierárquico
Regressão
Clusterização
Redução de dimensão
language: eng
metadata.dc.publisher.country: Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.department: ICEX - INSTITUTO DE CIÊNCIAS EXATAS
metadata.dc.publisher.program: Programa de Pós-Graduação em Ciência da Computação
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/34069
Issue Date: 25-Oct-2019
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
TulioLimaCriscuolo_substituicaofinal.pdf10.38 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.