Optimizing ensembles of boosted additive bagged trees for learning-to-rank

Clebson Cardoso Alves de Sá

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/ESBF-AKUMPW

Type:	Dissertação de Mestrado
Title:	Optimizing ensembles of boosted additive bagged trees for learning-to-rank
Authors:	Clebson Cardoso Alves de Sá
First Advisor:	Marcos Andre Goncalves
First Referee:	Marco Antonio Pinheiro de Cristo
Second Referee:	Renato Martins Assuncao
Third Referee:	Rodrygo Luis Teodoro Santos
Abstract:	Recuperar inforação que realmente importe ao usuário é considerada difı́cil quando levado em consideração a atual quantidade de informação disponı́vel online. Para aumentar a efetividade desta tarefa de busca de informação, sistemas tem baseado na combinação automática de funções de ranquemanto por meio de métodos de aprendizado de máquina, tarefa também conhecida em recuperação de informação como aprendizado de ranqueamento. Os métodos mais efetivos de aprendizado de máquina são atualmente agregações de árvores de decisão, tais como Florestas aleatórias e/ou técnicas de impusionamento (e.g: RankBoost, Mart, LambdaMart). Nesta dissertação de mestrado, é proposto uma estrutura que combina de maneira additiva árvores de decisão, em especı́fico Florestas Aleatórias com Impulsionamento de maneira original para a tarefa de aprendizado de ranqueamento. Em particular, é explorado um conjunto de funções que torna possı́vel inteligentemente deduzir quais amostras do conjunto de treino são de difı́ceis predição em um contexto de regressão aplicando um conjunto seletivo de abordagens de atualização da distribuição de pesos das amostras para aumentar a performance de ranqueamento do modelo de aprendizado de máquina.Nesta dissertação é abordado algumas instâncias que considerão diferentes funções de perca, differentes maneiras de atualizar a importância dos documentos assim como a importância dos classificadores internos ao procedimento iterativo de impulsionamento. Nas análises experimentais, os modelos foram capazes de superar todos os algorı́tmos considerados no estado da arte em várias coleções de dados em dois populares testes estatı́sticos. Outra vantagem da nossa estrutura de aprendizado de máquina para ranqueamento é que ele é capaz de superar todos os algoritmos base avaliados considerando pequenas frações de treino e com taxas de convergência superior em todas as coleções avaliadas. Isso mostra a vantagem em utilizar o nosso modelo para problemas de ranqueamento, visto que obter dados de treino é considerado algo extremamente custoso e difı́cil de se obter.
Abstract:	The task of retrieving information that really matters to the users is considered hard when taking into consideration the current and increasingly amount of available information. To improve the effectiveness of this information seeking task, systems have relied on the combination of many predictors by means of machine learning methods, a task also known as learning to rank (L2R). The most effective learning methods for this task are based on ensembles of trees. In this master degree dissertation, is proposed a general framework that smoothly combines ensembles of additive trees, specifically Random Forests, with Boosting in an original way for the task of L2R. In particular, we exploit a set of functions that enable us to smartly deduce the samples that are considered hard to predict in a regression approach and apply a set of selective weight updating strategy to effectively enhance the ranking performance.
Subject:	Recuperação da informação Floresta aleatória Aprendizado de ranqueamento Computação Aprendizado de máquina
language:	Português
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
Rights:	Acesso Aberto
URI:	http://hdl.handle.net/1843/ESBF-AKUMPW
Issue Date:	30-Sep-2016
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
clebsoncardoso.pdf		1.16 MB	Adobe PDF	View/Open

Show full item record