Modelos de mistura normal/independente via processo pontual por determinante e seu uso para redução de dimensionalidade em variáveis categóricas

Patrícia Viana da Silva

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/62393

Type:	Tese
Title:	Modelos de mistura normal/independente via processo pontual por determinante e seu uso para redução de dimensionalidade em variáveis categóricas
Other Titles:	Normal/independent mixture models via point process by determinant and their use for dimensionality reduction in categorical variables
Authors:	Patrícia Viana da Silva
First Advisor:	Rosangela Helena Loschi
First Co-advisor:	Cristiano de Carvalho Santos
First Referee:	Daiane Aparecida Zuanetti
Second Referee:	Dani Gamerman
Third Referee:	Márcia D Elia Branco
metadata.dc.contributor.referee4:	Vinícius Diniz Mayrink
Abstract:	Com o crescente volume de dados disponíveis atualmente, é fundamental ter métodos eficientes para organizar, explorar e extrair conhecimento desses dados. A análise de agrupamento é uma abordagem poderosa para lidar com essa grande quantidade de informações e identificar padrões úteis e ganhou mais notoriedade com a popularização do aprendizado de máquina. Este trabalho fornece um método flexível de agrupamento não supervisionado que incorpora característica de repulsão no comportamento dos parâmetros de locação que representam os grupos, também chamados de \textit{clusters}. Foi desenvolvido um Modelo de Mistura Finita de Distribuições Normal/Independente considerando o comportamento dos parâmetros de locação como uma realização de um Processo Pontual por Determinante (PPD), distribuição de probabilidade que evita a criação de grupos redundantes através de sua característica natural de repulsão de pontos. A proposta estende um modelo conhecido na literatura fornecendo, ainda, estrutura de incerteza à priori aos parâmetros do PPD propondo uma abordagem para sua estimação. A proposta é apresentada para estimação de densidade com um estudo de simulação que exalta a capacidade do modelo em estimar corretamente o número de grupos e a alocação dos indivíduos nestes grupos, além de uma aplicação em dados de demanda de agronegócio no plantio de banana. O modelo também foi utilizado no contexto de regressão linear para lidar com grupos latentes e redução de dimensionalidade, especialmente para variáveis categóricas com muitos níveis. A proposta oferece uma alternativa ao uso de penalidades como as do tipo LASSO. Foram avaliados os efeitos da especificação dos parâmetros do modelo na redução de dimensionalidade, comparando-o com modelos existentes na literatura para análise de dados de educação. O modelo apresentou agrupamentos robustos e se mostrou parcimonioso na estimação do número de grupos em relação aos outros modelos com os quais foi comparado. Além disso, foi desenvolvido um algoritmo Markov Chain Monte Carlo (MCMC) completo para a estimação dos parâmetros do modelo, seguindo o paradigma Bayesiano, e é disponibilizada a implementação em R.
Abstract:	With the increasing volume of data currently available, it is essential to have efficient methods to organize, explore and extract knowledge from this data. Cluster analysis is a powerful approach to dealing with this large amount of information and identifying beneficial patterns, which have gained more notoriety with the popularization of machine learning. This work provides a flexible unsupervised clustering method that incorporates the repulsion characteristic in the behavior of the location parameters, the clusters representing: a Finite Mixture Model of Normal/Independent Distributions developed considering the behavior of the location parameters as a realization of a Determinantal Point Process (DPP) probability distribution that avoids the creation of redundant groups through its natural characteristic of repulsion of points. The proposal extends a known model in the literature providing a priori an uncertainty structure to the PPD parameters, proposing an approach for its estimation. We introduce the proposal for density estimation with a simulation study that exalts the model's ability to correctly estimate the number of groups and the allocation of individuals in these groups, in addition to an application in agribusiness demand data in banana plantations. The model was also used in the linear regression context to deal with latent groups and dimensionality reduction, especially for categorical variables with many levels. The proposal offers an alternative to the use of LASSO-type penalties. The effects of specifying the model's parameters were evaluated on dimensionality reduction, comparing it with existing models in the literature for analyzing education data. The model allows robust grouping and proven parsimonious estimating of the number of groups compared to the other models. Furthermore, we developed a complete Markov Chain Monte Carlo (MCMC) algorithm to estimate the model parameters, following the Bayesian paradigm, and we available its implementation in R.
Subject:	Estatística - Teses Análise de regressão - Teses Análise por conglomerados - Teses Markov, processos de - Teses Variáveis aleatórias - Teses Estatística educacional - Teses
language:	por
metadata.dc.publisher.country:	Brasil
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
metadata.dc.publisher.department:	ICX - DEPARTAMENTO DE ESTATÍSTICA
metadata.dc.publisher.program:	Programa de Pós-Graduação em Estatística
Rights:	Acesso Restrito
metadata.dc.rights.uri:	http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
URI:	http://hdl.handle.net/1843/62393
Issue Date:	7-Aug-2023
metadata.dc.description.embargo:	7-Aug-2025
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
Tese-PDFA.pdf ???org.dspace.app.webui.jsptag.ItemTag.restrictionUntil??? 2025-08-07	Tese de Doutorado em Estatística	40.25 MB	Adobe PDF	View/Open Request a copy

Show full item record

This item is licensed under a Creative Commons License