Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/54639
Type: Monografia (especialização)
Title: Random forest aplicado na análise de churn: comparação do ajuste com dados completos versus ajuste em estratos definidos por variável categórica
Authors: Maria Luiza Rabelo Serpa
First Advisor: Guilherme Lopes de Oliveira
First Referee: Guilherme Augusto Veloso
Abstract: A perda de clientes para concorrentes, conhecida como churn, ocorre quando um cliente decide mudar de uma empresa para outra. Em busca de se manter no mercado, as empresas devem entender a motivação dos clientes a se afastarem se quiserem reduzir as taxas de churn e reter seus clientes atuais. Uma maneira de compreender melhor o churn de clientes, detectar padrões e prever o comportamento dos clientes é utilizando uma técnica de aprendizado de máquina conhecida como Random Forest. Esse é um método ensemble que combina múltiplas árvores de decisão e cada uma delas contribui na identificação da classe mais popular. Este estudo avalia o impacto de uma variável categórica geográfica ao utilizarmos o modelo Random Forest para prever o churn de clientes de uma instituição financeira na Alemanha, Espanha e França, com base em dados disponíveis em um repositório público. Para isso foram criados um modelo com a base de dados completa e modelos com a base de dados estratificada por país. Os dados dos modelos foram analisados utilizando algumas métricas sobre a qualidade de predição. A premissa de que a nacionalidade dos clientes seria capaz de impactar o modelo estatístico se mostrou verdadeira em certo sentido para o método e dados utilizados. As principais diferenças foram observadas na sensibilidade e no F1 score, ambos ligados à qualidade da classificação dos churns verdadeiros na França, país que representa a maior parte da base de dados proporcionalmente, e Alemanha. Embora os achados deste estudos sejam limitados aos dados abordados e sujeitos às condições de análises aqui especificadas, os resultados mostraram que, no caso da classificação binária via Random Forest, a exploração sobre estratificação ou não dos dados pode gerar conclusões interessantes do ponto de vista prático.
Abstract: Customer churn, also known as customer turnover, is the loss of existing customers to competitors. It occurs when a customer decides to switch from one company's product or service to another. In order to thrive, companies must understand what drives their customers away if they want to reduce churn rates and retain their current customers. One way to better understand customer churn, detect patterns and predict customer behavior is by using a machine learning technique known as Random Forest. It is an ensemble method that combines multiple decision trees and outputs the most popular class. This study evaluates the impact of the geographic categorical variable when using the Random Forest model to predict customer churn of a financial institution in Germany, Spain and France, based on a public data repository. To do this, a model was created with the complete database, and models with the database stratified by country. The data from the models were analyzed using quality prediction metrics. The premise that the customer's nationality would be able to impact the statistical model proved to be true in a way for the method and data used. The main differences were observed in the sensitivity and F1 score, both related to the classification quality of the true churns in France, the country that represents the largest part of the database proportionally, and Germany. Although the findings of this study are limited to the data addressed and subject to the conditions of analysis specified here, the results showed that, in the case of binary classification via Random Forest, the exploration to stratify or not of the data can generate interesting conclusions from a practical point of view.
Subject: Estatística
Churn de Clientes
Processo estocástico
Árvores de decisão
language: por
metadata.dc.publisher.country: Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.department: ICX - DEPARTAMENTO DE ESTATÍSTICA
metadata.dc.publisher.program: Programa de Pós-Graduação em Estatística
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/54639
Issue Date: 30-Mar-2023
Appears in Collections:Especialização em Estatística

Files in This Item:
File Description SizeFormat 
Monografia Estatistica - Maria Luiza Rabelo Serpa.pdf2.41 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.