Use este identificador para citar ou linkar para este item:
http://hdl.handle.net/1843/34069
Tipo: | Dissertação |
Título: | Product partition model for categorical features |
Título(s) alternativo(s): | Modelo partição produto para atributos categóricos |
Autor(es): | Tulio Lima Criscuolo |
Primeiro Orientador: | Wagner Meira Junior |
Segundo Orientador: | Renato Martins Assunção |
Primeiro membro da banca : | Rosangela Helena Loschi |
Segundo membro da banca: | Denis Deratani Mauá |
Terceiro membro da banca: | Fabrício Murai Ferreira |
Resumo: | A common difficulty in data analysis is how to handle categorical predictors with a large number of levels or categories. There are few proposals developed in the literature to handle this important and frequent problem. We introduce a generative model that simultaneously carries out the model fitting and the aggregation of the categorical levels into larger groups. Our approach is based on imposing a graph where the nodes are categories and creating a probability distribution over meaningful partitions of this graph. Being a Bayesian model, it allows the posterior inference, including uncertainty measurement, on the estimated parameters and the categories partition. We compare our method with the state-of-art methods showing that it has equally good predictive performance and much better interpretation ability. Given the current concern on balancing accuracy versus interpretability, our proposal reaches an excellent result. |
Abstract: | O tratamento de atributos categóricos com uma grande quantidade de categorias é um problema recorrente em análise de dados. Existem poucas propostas na literatura para lidar com este problema importante e recorrente. Introduzimos um modelo generativo, que simultaneamente estima os parâmetros e o agrupamento do atributo categórico em grupos. Nossa proposta é baseada em impor um grafo no qual os nós correspondem a categorias e criando uma distribuição de probabilidade sobre partições deste grafo. Sendo um modelo Bayesiano, somos capazes de fazer inferência a posteriori sobre os seus parâmetros e o particionamento do atributo categórico. Comparamos nosso mod- elo com métodos estado da arte e mostramos que obtemos uma capacidade preditiva igualmente boa e melhor interpretação dos resultados obtidos. |
Assunto: | Modelo Hierárquico Regressão Clusterização Redução de dimensão |
Idioma: | eng |
País: | Brasil |
Editor: | Universidade Federal de Minas Gerais |
Sigla da Instituição: | UFMG |
Departamento: | ICEX - INSTITUTO DE CIÊNCIAS EXATAS |
Curso: | Programa de Pós-Graduação em Ciência da Computação |
Tipo de Acesso: | Acesso Aberto |
URI: | http://hdl.handle.net/1843/34069 |
Data do documento: | 25-Out-2019 |
Aparece nas coleções: | Dissertações de Mestrado |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
TulioLimaCriscuolo_substituicaofinal.pdf | 10.38 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.