Product partition model for categorical features

dc.creatorTulio Lima Criscuolo
dc.date.accessioned2020-08-28T19:10:39Z
dc.date.accessioned2025-09-08T23:06:46Z
dc.date.available2020-08-28T19:10:39Z
dc.date.issued2019-10-25
dc.description.abstractO tratamento de atributos categóricos com uma grande quantidade de categorias é um problema recorrente em análise de dados. Existem poucas propostas na literatura para lidar com este problema importante e recorrente. Introduzimos um modelo generativo, que simultaneamente estima os parâmetros e o agrupamento do atributo categórico em grupos. Nossa proposta é baseada em impor um grafo no qual os nós correspondem a categorias e criando uma distribuição de probabilidade sobre partições deste grafo. Sendo um modelo Bayesiano, somos capazes de fazer inferência a posteriori sobre os seus parâmetros e o particionamento do atributo categórico. Comparamos nosso mod- elo com métodos estado da arte e mostramos que obtemos uma capacidade preditiva igualmente boa e melhor interpretação dos resultados obtidos.
dc.description.sponsorshipCNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico
dc.identifier.urihttps://hdl.handle.net/1843/34069
dc.languageeng
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.subjectModelo Hierárquico
dc.subjectRegressão
dc.subjectClusterização
dc.subjectRedução de dimensão
dc.subject.otherHierarchical Model
dc.subject.otherRegression
dc.subject.otherClustering
dc.subject.otherDimensionality Reduction
dc.titleProduct partition model for categorical features
dc.title.alternativeModelo partição produto para atributos categóricos
dc.typeDissertação de mestrado
local.contributor.advisor-co1Renato Martins Assunção
local.contributor.advisor-co1Latteshttp://lattes.cnpq.br/3575559872183767
local.contributor.advisor1Wagner Meira Junior
local.contributor.advisor1Latteshttp://lattes.cnpq.br/9092587237114334
local.contributor.referee1Rosangela Helena Loschi
local.contributor.referee1Denis Deratani Mauá
local.contributor.referee1Fabrício Murai Ferreira
local.creator.Latteshttp://lattes.cnpq.br/3857763744325044
local.description.resumoA common difficulty in data analysis is how to handle categorical predictors with a large number of levels or categories. There are few proposals developed in the literature to handle this important and frequent problem. We introduce a generative model that simultaneously carries out the model fitting and the aggregation of the categorical levels into larger groups. Our approach is based on imposing a graph where the nodes are categories and creating a probability distribution over meaningful partitions of this graph. Being a Bayesian model, it allows the posterior inference, including uncertainty measurement, on the estimated parameters and the categories partition. We compare our method with the state-of-art methods showing that it has equally good predictive performance and much better interpretation ability. Given the current concern on balancing accuracy versus interpretability, our proposal reaches an excellent result.
local.publisher.countryBrasil
local.publisher.departmentICEX - INSTITUTO DE CIÊNCIAS EXATAS
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Ciência da Computação

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
TulioLimaCriscuolo_substituicaofinal.pdf
Tamanho:
10.14 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Plain Text
Descrição: