Use este identificador para citar o ir al link de este elemento: http://hdl.handle.net/1843/34069
Tipo: Dissertação
Título: Product partition model for categorical features
Título(s) alternativo(s): Modelo partição produto para atributos categóricos
Autor(es): Tulio Lima Criscuolo
primer Tutor: Wagner Meira Junior
Segundo Tutor: Renato Martins Assunção
primer miembro del tribunal : Rosangela Helena Loschi
Segundo miembro del tribunal: Denis Deratani Mauá
Tercer miembro del tribunal: Fabrício Murai Ferreira
Resumen: A common difficulty in data analysis is how to handle categorical predictors with a large number of levels or categories. There are few proposals developed in the literature to handle this important and frequent problem. We introduce a generative model that simultaneously carries out the model fitting and the aggregation of the categorical levels into larger groups. Our approach is based on imposing a graph where the nodes are categories and creating a probability distribution over meaningful partitions of this graph. Being a Bayesian model, it allows the posterior inference, including uncertainty measurement, on the estimated parameters and the categories partition. We compare our method with the state-of-art methods showing that it has equally good predictive performance and much better interpretation ability. Given the current concern on balancing accuracy versus interpretability, our proposal reaches an excellent result.
Abstract: O tratamento de atributos categóricos com uma grande quantidade de categorias é um problema recorrente em análise de dados. Existem poucas propostas na literatura para lidar com este problema importante e recorrente. Introduzimos um modelo generativo, que simultaneamente estima os parâmetros e o agrupamento do atributo categórico em grupos. Nossa proposta é baseada em impor um grafo no qual os nós correspondem a categorias e criando uma distribuição de probabilidade sobre partições deste grafo. Sendo um modelo Bayesiano, somos capazes de fazer inferência a posteriori sobre os seus parâmetros e o particionamento do atributo categórico. Comparamos nosso mod- elo com métodos estado da arte e mostramos que obtemos uma capacidade preditiva igualmente boa e melhor interpretação dos resultados obtidos.
Asunto: Modelo Hierárquico
Regressão
Clusterização
Redução de dimensão
Idioma: eng
País: Brasil
Editor: Universidade Federal de Minas Gerais
Sigla da Institución: UFMG
Departamento: ICEX - INSTITUTO DE CIÊNCIAS EXATAS
Curso: Programa de Pós-Graduação em Ciência da Computação
Tipo de acceso: Acesso Aberto
URI: http://hdl.handle.net/1843/34069
Fecha del documento: 25-oct-2019
Aparece en las colecciones:Dissertações de Mestrado

archivos asociados a este elemento:
archivo Descripción TamañoFormato 
TulioLimaCriscuolo_substituicaofinal.pdf10.38 MBAdobe PDFVisualizar/Abrir


Los elementos en el repositorio están protegidos por copyright, con todos los derechos reservados, salvo cuando es indicado lo contrario.