Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/38570
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Geraldo Robson Mateuspt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/6289602045034353pt_BR
dc.contributor.referee1André Carlos Ponce de Leon Ferreira de Carvalhopt_BR
dc.contributor.referee2Adriano Alonso Velosopt_BR
dc.contributor.referee3Cristiano Arbex Vallept_BR
dc.contributor.referee4Dilson Lucas Pereirapt_BR
dc.creatorJulio César Alvespt_BR
dc.creator.Latteshttp://lattes.cnpq.br/2547158184816891pt_BR
dc.date.accessioned2021-10-30T19:47:03Z-
dc.date.available2021-10-30T19:47:03Z-
dc.date.issued2021-10-06-
dc.identifier.urihttp://hdl.handle.net/1843/38570-
dc.description.abstractDeep Reinforcement Learning (DRL) methods have been increasingly used in several areas of knowledge and, recently, this interest has also grown in the Optimization community. In this work, we apply and compare Policy Gradient methods in the problem of planning the production and distribution of products in a supply chain with multiple stages. Most of the previous works that use similar methods only consider serial supply chains or only two echelons, generally limiting the solution possibilities, and none of them consider stochastic lead times. We consider a chain with four echelons and two nodes per echelon, with uncertainties regarding seasonal demands from customers and lead times of production at suppliers and transport along the chain. To our knowledge, this work is the first to apply, in such chain configuration, DRL methods considering a centralized approach to the problem, in which all decisions are taken by a single agent based on the uncertain demands of the end customers. We propose a Markovian Decision Process (MDP) formulation and a Linear Programming (LP)model with uncertain parameters. The MDP formulation is adapted to obtain good results with the application of Policy Gradient methods. In the first phase, after an initial case study, we applied the Proximal Policy Optimization (PPO) algorithm in 17 experimental scenarios, considering seasonal and regular uncertain demands (with different levels of uncertainty) and constant and stochastic lead times. In this phase, an agent built from the solution of a Linear Programming model (given by considering expected demands and average lead times) is used as a baseline. In the second phase, we have compared five algorithms, Advantage Actor-Critic (A2C), Deep Deterministic Policy Gradient (DDPG), Proximal Policy Optimization (PPO), SAC, and Twin Delayed DDPG (TD3), in 8 of the 17 previous scenarios, using statistical tools for proper comparison of the algorithms. The PPO and SAC algorithms had the best performance in the experiments, the first having a better execution time. Experimental results indicate that Policy Gradient methods, especially PPO, are suitable and competitive tools for the proposed problem. In the third phase, we started to work with a multi-product version of the problem, generalizing the MDP formulation and the LP model. Experiments were carried out with the PPO algorithm in 16 multi-product scenarios, considering two and three products and different cost and demand configurations. The results indicate that, as in the original problem, the PPO performs better than the baseline in scenarios with stochastic lead times.pt_BR
dc.description.resumoAlgoritmos de Aprendizado por Reforço (AR) Profundo têm sido cada vez mais utilizados em diversas áreas do conhecimento e, recentemente, este interesse tem crescido também na comunidade de Otimização. Neste trabalho, aplicamos e comparamos algoritmos do tipo Policy Gradient em um problema clássico de otimização de planejamento de produção e distribuição de produtos em uma cadeia de suprimentos com múltiplos estágios. A maior parte dos trabalhos anteriores que utilizam métodos similares, considera somente cadeias de suprimentos seriais ou com até dois estágios, geralmente limitando as possibilidades de solução, e nenhum deles considera tempos de espera estocásticos. Nós consideramos uma cadeia com quatro estágios e dois nós por estágio, com incertezas nas demandas sazonais dos clientes finais e nos tempos de espera de produção nos fornecedores e de transporte ao longo da cadeia. Pelo nosso conhecimento, este trabalho é o primeiro a aplicar, nesta configuração de cadeia, métodos de AR Profundo, considerando uma abordagem centralizada para o problema, na qual todas as decisões são tomadas por um único agente, a partir das demandas incertas dos clientes finais. Propomos uma formulação de Processo de Decisão de Markov (PDM) e um modelo de Programação Linear (PL) com parâmetros incertos. A formulação PDM é adaptada de forma a se obter bons resultados com a aplicação dos algoritmos Policy Gradient. Em uma primeira fase, depois de um estudo de caso inicial, aplicamos o algoritmo Proximal Policy Optimization (PPO) em 17 cenários experimentais, considerando demandas incertas sazonais e regulares, com diferentes níveis de incerteza para as demandas, e tempos de espera constantes e estocásticos. Nesta fase, um agente construído a partir da solução de um modelo de Programação Linear (dado por considerarmos demandas esperadas e tempos de espera médios) é usado como baseline. Em uma segunda fase, comparamos cinco algoritmos, Advantage Actor-Critic (A2C), Deep Deterministic Policy Gradient (DDPG), PPO, Soft Actor-Critic (SAC) e Twin Delayed DDPG (TD3), em 8 dos 17 cenários anteriores, utilizando ferramentas estatísticas para comparação adequada dos algoritmos. Os algoritmos PPO e SAC alcançaram melhor desempenho nos experimentos realizados, sendo que o primeiro tem um melhor tempo de execução. Os resultados experimentais indicam que métodos Policy Gradient, especialmente o PPO, são ferramentas adequadas e competitivas para o problema proposto. Em uma terceira fase, passamos a trabalhar com uma versão multiproduto do problema, generalizando a formulação PDM e o modelo PL com parâmetros incertos. Foram realizados experimentos com o algoritmo PPO em 16 cenários multiproduto, considerando dois e três produtos, e diferentes configurações de custos e de demandas. Os resultados encontrados indicam que, como no problema original, o PPO tem desempenho melhor que o baseline nos cenários com tempos de espera estocásticos.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Federal de Minas Geraispt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computaçãopt_BR
dc.publisher.initialsUFMGpt_BR
dc.rightsAcesso Abertopt_BR
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/pt/*
dc.subjectCadeias de suprimentos multiestágiopt_BR
dc.subjectTomada de decisão sequencial sob incertezapt_BR
dc.subjectAprendizado por reforçopt_BR
dc.subjectAprendizado profundopt_BR
dc.subjectMétodos policy gradientpt_BR
dc.subject.otherComputação - Teses.pt_BR
dc.subject.otherMarkov, Processos de.pt_BR
dc.subject.otherAprendizado por reforço - Teses.pt_BR
dc.subject.otherAprendizado profundo - Teses.pt_BR
dc.titleAplicação e comparação de métodos policy gradient em problema de cadeias de suprimentos multiestágio com incertezaspt_BR
dc.title.alternativeApplying and comparing policy gradient methods to multi-echelon supply chain problem with uncertaintypt_BR
dc.typeTesept_BR
dc.identifier.orcidhttps://orcid.org/0000-0002-4848-9453pt_BR
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
Tese_versao_final.pdf4.37 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons