Ciência de dados e aprendizado de máquina para predição em séries temporais financeiras
Carregando...
Data
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Dissertação de mestrado
Título alternativo
Primeiro orientador
Membros da banca
Arthur Rodrigo Bosco de Magalhães
Cristiano Abrex Valle
Pedro Olmo Stancioli Vaz de Melo
Cristiano Abrex Valle
Pedro Olmo Stancioli Vaz de Melo
Resumo
Ao longo da história surgiram diversos modelos de previsão com o objetivo de compreender
o comportamento de séries de preços de ativos no mercado financeiro. O
avanço do poder computacional tem facilitado a criação de novos modelos, cada vez
mais complexos, que surgem com este propósito. Entretanto, mesmo com a utilização
de técnicas avançadas de aprendizado de máquina utilizando um volume grande de dados
históricos, tal tarefa continua sendo bastante desafiadora, permanecendo como um
problema em aberto. O objetivo deste trabalho é criar estratégias automatizadas de
operação no mercado, baseadas em um modelo de previsão de tendências nos preços das
séries financeiras, por meio de aprendizado de máquina. É utilizada uma rede neural
recorrente Long Short Term Memory como modelo de previsão. O trabalho também
tem como objetivo demonstrar que várias das séries financeiras possuem uma correlação
temporal, mesmo que pequena, o que viabiliza a construção de modelos de previsão
que se baseiam em dados históricos. Para demonstrar essa correlação são analisadas
as propriedades estatísticas das séries e aplicados testes de hipóteses nas mesmas. O
trabalho apresenta uma metodologia robusta desde a coleta dos dados, até a simulação
de operação no mercado envolvendo os custos de operação para 38 ativos da bolsa de
valores brasileira. A metodologia ainda apresenta um método para criação de uma
nova série mais correlacionada com valores futuros por meio de uma combinação linear
das séries históricas em diferentes lags de tempo. Os resultados obtidos demonstram
ser promissores, uma vez que os melhores modelos de predição obtiveram valores de
Acurácia de até 63% e valores de retorno financeiro de até 47%. Os melhores casos
obtiveram desempenhos superiores, tanto em termos de classificação quanto em termos
de retorno financeiro comparados aos baselines de classificador aleatório, estratégia de
Buy and Hold, taxas SELIC e CDI.
Abstract
Throughout history several forecasting models have emerged with the objective of understanding
the behavior of asset price series in the financial market. The advancement
of computational power has facilitated the creation of new, increasingly complex models
that arise for this purpose. However, even with the use of advanced machine learning
techniques using a large volume of historical data, this task remains quite challenging,
remaining an open problem. The objective of this work is to create automated strategies
of operation in the market, based on a forecast model of trends in the prices
of financial series, through machine learning. A recurrent neural network Long Short
Term Memory is used as the predictive model. The paper also aims to demonstrate
that several of the financial series have a temporal correlation, even if small, which allows
the construction of forecasting models that are based on historical data. In order
to demonstrate this correlation, the statistical properties of the series are analyzed and
hypothesis tests are applied to them. The work presents a robust methodology from
the data collection to the simulation of operation in the market involving the operating
costs for 38 assets of the Brazilian stock exchange. The methodology further presents
a method for creating a more correlated attribute with future values by means of a
linear combination of the historical series in different time lags. The results obtained
are promising since the best forecasting models obtained Accuracy values of up to 63%
and financial return values of up to 47%. The best cases outperformed both in terms of
prediction and in terms of financial return compared to baselines techniques as random
classifier, Buy and Hold strategy, SELIC and CDI rates.
Assunto
Ciência de dados, Aprendizado do Computador, Bolsa de Valores
Palavras-chave
Mercado de Ações, Ciência de Dados, Séries Financeiras, Análise Estatística, Aprendizado de Máquina, Redes Neurais