Use este identificador para citar o ir al link de este elemento: http://hdl.handle.net/1843/62090
Registro completo de metadatos
Campo DCValorIdioma
dc.contributor.advisor1Adriano César Machado Pereirapt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/6813736989856243pt_BR
dc.contributor.advisor-co1Leonardo Chaves Dutra da Rochapt_BR
dc.contributor.referee1Rodrygo Luis Teodoro Santospt_BR
dc.contributor.referee2Anísio Mendes Lacerdapt_BR
dc.contributor.referee3Fernando Henrique de Jesus Mourãopt_BR
dc.contributor.referee4Marcelo Garcia Manzatopt_BR
dc.creatorNicollas de Campos Silvapt_BR
dc.creator.Latteshttp://lattes.cnpq.br/2903958691750105pt_BR
dc.date.accessioned2023-12-19T19:51:02Z-
dc.date.available2023-12-19T19:51:02Z-
dc.date.issued2023-07-03-
dc.identifier.urihttp://hdl.handle.net/1843/62090-
dc.description.abstractAtualmente, Sistemas de Recomendação (SsR) têm se preocupado com o ambiente online de aplicações do mundo real, onde o sistema deve continuamente aprender e prever novas recomendações. Trabalhos atuais têm abordado essa tarefa como um problema de MultiArmed Bandit (MAB) ao propor modelos de Contextual Bandit (CB). A ideia é aplicar técnicas de recomendação usuais para explorar as preferências do usuário, enquanto o sistema também tenta aprender novas informações sobre seus gostos. Contudo, o nível de personalização desses modelos ainda está diretamente relacionado às informações previamente disponíveis sobre os usuários. Após uma extensa revisão da literatura sobre o assunto, observamos que os algoritmos atuais têm negligenciado o impacto de cenários de incerteza sobre as preferências do usuário. Assumindo que o modelo bandit pode aprender independentemente do item recomendado, tais modelos estão perdendo uma oportunidade de obter mais informações sobre os usuários. Nesse sentido, esta dissertação aborda o desafio de lidar com cenários de incerteza em modelos de Contextual Bandit. Em particular, investigamos dois cenários comuns em sistemas interativos: (1) quando o usuário entra pela primeira vez e (2) quando o sistema continua fazendo recomendações incorretas devido a suposições enganosas anteriores. Em ambos os cenários, propomos introduzir conceitos de Reinforcement Learning para representar o trade-off entre exploitation e exploration nos modelos bandit. Nossa solução consiste em recomendar itens não personalizados com base na entropia e na popularidade para obter mais informações sobre o usuário sem diminuir a precisão do modelo quando um cenário de incerteza é observado. Essa solução é então instanciada em três algoritmos bandit tradicionais, criando novas versões de cada um deles. Experimentos em domínios de recomendação distintos mostram que essas versões modificadas superam suas versões originais e todas as demais linhas de base, aumentando a acurácia a longo prazo. Além disso, uma avaliação contrafactual valida que tais melhorias não foram simplesmente alcançadas devido ao viés de conjuntos de dados offline.pt_BR
dc.description.resumoNowadays, Recommendation Systems (RSs) have been concerned about the online environment of real-world applications where the system should continually learn and predict new recommendations. Current works have addressed this task as a Multi-Armed Bandit (MAB) problem by proposing Contextual Bandit (CB) models. The idea is to apply usual recommendation techniques to exploit the user’s preferences while the system also addresses some exploration to learn new information about their tastes. The personalisation level of such models is still directly related to the information previously available about the users. However, after an extensive literature review on this topic, we observe that current algorithms have neglected the impact of scenarios of uncertainty about the user’s preferences. Assuming that the bandit model can learn regardless of the recommended item, such models are wasting an opportunity to get more information about the users. In this sense, this dissertation addresses the challenge of handling scenarios of uncertainty in Contextual Bandit models. In particular, we investigate two usual scenarios in interactive systems: (1) when the user joins for the first time and (2) when the system continually makes wrong recommendations because of prior misleading assumptions. In both scenarios, we propose to introduce concepts from the Active Learning theory to represent the usual trade-off between exploration and exploitation in the bandit models. Our solution consists of recommending non-personalised items based on entropy and popularity to get more information about the user without decreasing the model’s accuracy when an uncertain scenario is observed. This solution is then instantiated into three traditional bandit algorithms, creating new versions of each of them. Experiments in distinct recommendation domains show that these modified versions outperform their original ones and all baselines by increasing the cumulative reward in the long run. Moreover, a counterfactual evaluation validates that such improvements were not simply achieved due to the bias of offline datasets.pt_BR
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superiorpt_BR
dc.languageengpt_BR
dc.publisherUniversidade Federal de Minas Geraispt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃOpt_BR
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computaçãopt_BR
dc.publisher.initialsUFMGpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectRecommendation Systemspt_BR
dc.subjectMulti-Armed Banditspt_BR
dc.subject.otherComputação – Tesespt_BR
dc.subject.otherSistemas de Recomendação, Multi-Armed Banditspt_BR
dc.titleActive learning in contextual bandits: handling the uncertainty about the user's preferences in interactive recommendation systemspt_BR
dc.title.alternativeActive learning em modelos bandit contextuais: lidando com a incerteza sobre a preferência dos usuários em sistemas de recomendação interativospt_BR
dc.typeTesept_BR
dc.identifier.orcidhttps://orcid.org/0000-0003-4393-3348pt_BR
Aparece en las colecciones:Teses de Doutorado

archivos asociados a este elemento:
archivo Descripción TamañoFormato 
PhD thesis - final version.pdf2.88 MBAdobe PDFVisualizar/Abrir


Los elementos en el repositorio están protegidos por copyright, con todos los derechos reservados, salvo cuando es indicado lo contrario.