Análise do desempenho de diferentes modelos de predição de eventos binários em epidemiologia – estudo com dados de retenção de placenta.

Rafael Romero Nicolino

Use este identificador para citar ou linkar para este item: http://hdl.handle.net/1843/51327

Tipo:	Monografia (especialização)
Título:	Análise do desempenho de diferentes modelos de predição de eventos binários em epidemiologia – estudo com dados de retenção de placenta.
Título(s) alternativo(s):	Performance analysis of different models of prediction of binary events in epidemiology - Study with retained placenta data.
Autor(es):	Rafael Romero Nicolino
Primeiro Orientador:	Marcelo Azevedo Costa
Primeiro membro da banca :	Guilherme Lopes de Oliveira
Segundo membro da banca:	João Paulo Amaral Haddad
Resumo:	Técnicas estatísticas de classificação têm por objetivo, basicamente, predizer determinado comportamento de um evento com base em suas características que, de alguma forma, estão correlacionadas com a variável resposta de interesse. Modelos preditivos podem ser desenvolvidos usando métodos tradicionais de análise de regressão, por exemplo regressão logística ou até mesmo com métodos mais sofisticados como modelos de árvore de classificação (CART) e Floresta Aleatória. Este estudo teve como objetivo analisar o desempenho de três diferentes métodos de modelagem de dados: um método clássico de GLM, a Regressão Logística e dois métodos baseados em técnicas de aprendizado de máquina (Machine Learning), a Árvore de Classificação (CART) e o Modelo de Floresta Aleatória. A aplicabilidade dos modelos desenvolvidos foi avaliada por meio de índices de desempenho de classificação como a estatística AUC (Area Under the Curve). O banco de dados é relacionado ao evento de retenção de placenta em 3 propriedades leiteiras de Unaí, Minas Gerais. A retenção de placenta foi analisada através do preenchimento de fichas epidemiológicas pelos proprietários, gerando um total de 699 observações. Devido a um perfil muito específico do banco de dados, a análise buscou comparar os resultados de dois bancos de dados, denominados dt01 e dt02. Buscou-se verificar como esse desbalanceamento de dados, e um problema de dados faltantes relacionado a ordem de lactação e número de partos, específicos de uma propriedade, poderia atuar no desempenho dos modelos. Assim, avaliando individualmente cada modelo, o desempenho da regressão logística e do modelo CART, modelos menos complexos e de entendimento mais direto, obtiveram AUC maiores que o de Floresta Aleatória. Baseados na discussão anterior, da complexidade do evento estudado e variáveis levantadas, podemos considerar que o desempenho dos modelos mais simples foi minimamente satisfatório e superiores aos modelos mais complexos.
Abstract:	Statistical modeling for classification is basically aimed at predicting certain behavior of an event based on its characteristics that, in some way, are correlated with the response variable of interest. Predictive models can be developed using traditional methods of regression analysis, for example logistic regression or even with more sophisticated methods like classification tree models (CART) and Random Forest. This study aimed to analyze the performance of three different methods of data modeling: a classic GLM method, Logistic Regression and two methods based on machine learning techniques (Machine Learning), the Classification Tree (CART) and the Random Forest Model. The applicability of the models was evaluated using classification performance indices such as the AUC statistic (Area Under the Curve). The database is related to the retained placenta in 3 dairy farms in Unaí, Minas Gerais. Retained placenta was analyzed by self-completed epidemiological forms by the owners, generating a total of 699 observations. Due to a very specific profile of the database, the analysis was conducted to compare the results of two databases, called as dt01 and dt02. We aimed to verify how an imbalance data, and a problem of missing data related to the lactation order and number of lactations, specific to a property, could affect the performance of the models. Thus, evaluating each model individually, the performance of the logistic regression and the CART model, less complex models with a more direct understanding, obtained higher AUCs than the Random Forest. Based on the previous discussion, the complexity of the event studied, and the studie variables, we can consider that the performance of the simpler models was minimally satisfactory and superior to the more complex models.
Assunto:	Estatística Epidemiologia Análise de regressão Aprendizado do computador
Idioma:	por
País:	Brasil
Editor:	Universidade Federal de Minas Gerais
Sigla da Instituição:	UFMG
Departamento:	ICX - DEPARTAMENTO DE ESTATÍSTICA
Curso:	Curso de Especialização em Estatística
Tipo de Acesso:	Acesso Aberto
metadata.dc.rights.uri:	http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
URI:	http://hdl.handle.net/1843/51327
Data do documento:	19-Dez-2022
Aparece nas coleções:	Especialização em Estatística

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Texto Final Rafael Nicolino 25.02.pdf	Monografia de Especialização	1.07 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons