Markov decision processes for optimizing job scheduling with Reinforcement Learning

Renato Luiz de Freitas Cunha

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/47369

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Luiz Chaimowicz	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/4499928813481251	pt_BR
dc.contributor.referee1	Jussara Marques de Almeida Gonçalves	pt_BR
dc.contributor.referee2	Dorgival Olavo Guedes Neto	pt_BR
dc.contributor.referee3	Ana Paula Appel	pt_BR
dc.contributor.referee4	Marcos Dias de Assunção	pt_BR
dc.creator	Renato Luiz de Freitas Cunha	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/4951274518099907	pt_BR
dc.date.accessioned	2022-11-22T14:01:05Z	-
dc.date.available	2022-11-22T14:01:05Z	-
dc.date.issued	2022-07-19	-
dc.identifier.uri	http://hdl.handle.net/1843/47369	-
dc.description.abstract	À medida que nossos sistemas computacionais se tornam maiores e com interações mais complexas, apresenta-se um potencial para o uso de técnicas de aprendizado que se adaptem a variações nas condições de sistemas durante a evolução das cargas de trabalho. O arcabouço de tomada de decisão sequencial fornecido por Aprendizado por Reforço (RL) se adapta bem a problemas de gerenciamento de recursos. Ainda assim, quando consideramos o uso de Aprendizado Profundo para escalonamento de jobs de sistemasde Computação de Alto Desempenho (HPC), vemos que trabalhos existentes ou focam em problemas menores, como a decisão de escolha de heurísticas dentro de um conjunto, ou em instâncias simplificadas do problema. Nesta tese, investigamos modelos de Processos de Tomada de Decisão de Markov (MDP) para resolver o escalonamento de jobs HPC, apresentando uma abordagem para experimentação mais rápida e reprodutível. Sobre essa fundação, investigamos como diferentes agentes se comportam nesse arcabouço, ao mesmo tempo que identificamos deficiências tanto na representação do problema quanto como o aprendizado se dá nesse cenário. Dentre as contribuições deste trabalho, propomos um sistema de software para desenvolvimento e experimentação com agentes deRL, bem como avaliamos algoritmos de estado-da-arte nesse sistema, com desempenho equivalente ao de algoritmos específicos, porém com menos esforço computacional. Nós também mapeamos o problema de escalonamento de jobs HPC para o formalismo de SMDP e apresentamos uma solução online, baseada em aprendizado por reforço profundo que usa uma modificação do algoritmo PPO para minimizar slowdown de jobs com máscara de ações, adicionando suporte a grandes espaços de ações ao sistema. Em nossos experimentos, nós avaliamos os efeitos de ruído nas estimativas de tempo de execução em nosso modelo, observando como ele se comporta tanto em clusters pequenos (64 processadores) quando em clusters grandes (163840 processadores). Nós também mostramos que nosso modelo é robusto a mudanças em carga de trabalho e nos tamanhos de clusters, demonstrando que a transferência de agentes entre clusters funcionam com mudanças de tamanho de cluster de até 10x, além de suportar mudanças de cargade trabalho sintético para seguir a execução de traços de sistemas reais. A abordagem de modelagem proposta possui melhor desempenho que outras da literatura, tornando-a viável para a criação de modelos de escalonamento robustos, transferíveis e capazes de aprender.	pt_BR
dc.description.resumo	As our systems become larger and their interactions more complex, there is a potential for learning techniques that adapt tovarying system conditions as workloads evolve. The framework for sequential decision making provided by Reinforcement Learning (RL) fits well with resource management problems, as recent literature indicates. Yet, when we consider the use of Deep Learning for the scheduling of batch jobs in High Performance Computing (HPC) systems,we see that work in the literature either focuses on smaller problems, such as deciding which heuristic to use at a given time, or on simplified instances of the problem. In this dissertation proposal, we investigate Markov Decision Process (MDP) models to solve the problem of scheduling batch HPC jobs, presenting an approach for faster and reproducible experimentation. With this foundation,we investigate how different agents behave under this framework, while identifying deficiencies both in the representation of the problem and how learning proceeds in such a setting. Among the contributions of this work, we propose a software system for developing and experimenting with RL agents, and we evaluate different state-of-the-art algorithms from the literature in this environment, achieving performance equivalent to that of purpose-built algorithms, with comparable performance.	pt_BR
dc.language	eng	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Reinforcement Learning	pt_BR
dc.subject	High-Performance Computing	pt_BR
dc.subject	Batch Job Scheduling	pt_BR
dc.subject	Machine Learning	pt_BR
dc.subject	Markov Decision Processes	pt_BR
dc.subject.other	Computação – Teses	pt_BR
dc.subject.other	Aprendizado por reforço – Teses	pt_BR
dc.subject.other	Computação de alto desempenho – Teses	pt_BR
dc.subject.other	Aprendizado do computador – Teses	pt_BR
dc.subject.other	Markov, Processos de – Teses	pt_BR
dc.title	Markov decision processes for optimizing job scheduling with Reinforcement Learning	pt_BR
dc.title.alternative	Processos de decisão de Markov para a otimização de escalonamento de jobs com aprendizado por reforço	pt_BR
dc.type	Tese	pt_BR
dc.identifier.orcid	https://orcid.org/0000-0002-3196-3008	pt_BR
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
dissertation-2.pdf	tese	2.88 MB	Adobe PDF	View/Open

Show simple item record