Aprendizado ativo para ordenação de resultados

Rodrigo de Magalhães Silva

Use este identificador para citar ou linkar para este item: http://hdl.handle.net/1843/ESBF-8UZJAJ

Tipo:	Dissertação de Mestrado
Título:	Aprendizado ativo para ordenação de resultados
Autor(es):	Rodrigo de Magalhães Silva
Primeiro Orientador:	Marcos Andre Goncalves
Primeiro Coorientador:	Adriano Alonso Veloso
Primeiro membro da banca :	Adriano Alonso Veloso
Segundo membro da banca:	Gisele Lobo Pappa
Terceiro membro da banca:	Nivio Ziviani
Quarto membro da banca:	Pavel Pereira Calado
Resumo:	A ordenação de resultados é uma funcionalidade essencial de muitos sistemas: desde máquinas de busca na Web, passando por sistemas de recomendação de produtos e propaganda virtual, resultados devem ser ordenados de acordo com sua relevância para a busca efetuada ou baseado em preferências do usuário ou em seu perfil. Essa ordenação é especialmente importante para sistemas de busca na Web, uma vez que uma simples pesquisa pode retornar centenas de milhares ou milhões de documentos, mas o usuário provavelmente irá visualizar apenas alguns poucos no topo da lista. Algoritmos que aprendem a ordenar (Learning to Rank - L2R) usam técnicas de aprendizado de máquina para produzir ordenações melhores do que aquelas obtidas por modelos clássicos de Recuperação de Informação, como o BM25, por exemplo. Métodos L2R necessitam de um conjunto de treino rotulado para poderem gerar um modelo de ordenação que pode depois ser utilizado para ordenar os resultados de novas buscas. Esses conjuntos de treino são difíceis e caros de produzir, pois é necessário que especialistas humanos avaliem os documentos retornados, indicando se são ou não relevantes ou então provendo uma ordem parcial ou total desses documentos de acordo com sua relevancia para a busca. Algoritmos de aprendizado ativo podem reduzir o custo desse processo de análise de relevância, selecionando de um conjunto não rotulado de instâncias que têm o potencial de acelerar o aprendizado do algoritmo de L2R, maximizando a eficácia do modelo aprendido. Nessa dissertação, propomos um novo método de aprendizado ativo baseado em regras de associação que pode ser usado para selecionar documentos de um conjunto não-rotulado sem a necessidade de um conjunto inicial de treino. Esse método seleciona conjuntos de treino pequenos e efetivos. Entretanto, não é simples estender esse método para selecionar mais documentos caso isso seja necessário. Portanto, outra contribuição desse trabalho é um método iterativo de seleção de documentos que pode ser usado para selecionar mais instâncias para serem rotuladas. Nesse segundo estagio, inicialmente usamos os documentos selecionados pelo primeiro metodo para treinar um comitê de algoritmos L2R distintos. Depois, o método progride iterativamente selecionando, para cada busca, aqueles documentos cuja ordem mais varia entre as ordens propostas pelos membros do comitê. Usados em conjunto, esses dois métodos são poderosos e flexíveis, podendo ser aplicados em vários cenários reais. Testamos os metodos propostos utilizando vários conjuntos de teste da coleção ao LETOR e mostramos que eles obtêm resultados competitivos selecionando uma pequena fração dos conjuntos de treino originais. Em metade dos conjuntos de teste avaliados, selecionando menos de 5% dos treinos originais, a combinação dos métodos obtêm resultados melhores do que aqueles obtidos por algoritmos L2R do estado-da-arte utilizando os treinos completos. Também mostramos que a combinação dos métodos é melhor do que um algoritmo de aprendizado ativo para L2R recentemente proposto na literatura.
Abstract:	Ranking is an essential feature of many applications: from web search to product recommendation systems and online advertising, results have to be ordered based on their estimated relevance with respect to a query or based on a user profile or personal preferences. Ranking is especially important in Web Information Retrieval where a simple query can return hundreds of thousands or millions of documents, but the user will probably only scan the first few results. Learning to Rank (L2R) algorithms use Machine Learning (ML) techniques to provide better rankings than those obtained by classic Information Retrieval models, such as BM25. L2R algorithms need a labeled training set to generate a ranking model that can be later used to rank new query results. These training sets are very costly and laborious to produce, requiring human annotators to assess the relevance or order of the documents in relation to a query. Active learning algorithms are able to reduce the labeling effort by selectively sampling an unlabeled set and choosing data instances that maximize a learning function\\\'s effectiveness. In this work we propose a novel associative rule-based active learning method that can be used to actively select document instances from an unlabeled set without the need of having an initial seed training set. Used alone, this method provides very small and yet effective training sets. Although effective, this method is not easily extended to select more instances if necessary. Thus, another contribution of this work is a round-based second stage selection method can be used to select more instances for labeling as needed. This second stage method initially uses the small sets selected by the first method to train a committee of distinct L2R algorithms. It then progresses iteratively in rounds selecting, for each query, those documents that the committee members most disagree about in ranking. Together, these complementary methods are very powerful and flexible making the resulting combined method applicable to many real-world scenarios. We test our methods with various benchmarking datasets and compare them to several baselines to show that they achieve very competitive results using only a small portion of the original training sets. For instance, in half of the datasets tested, while selecting less than 5% of the original training sets, the proposed combined method achieves results that are better than state-of-the-art L2R algorithms trained on the complete training sets and that also surpass a strong active learning for L2R baseline method.
Assunto:	Computação
Idioma:	Português
Editor:	Universidade Federal de Minas Gerais
Sigla da Instituição:	UFMG
Tipo de Acesso:	Acesso Aberto
URI:	http://hdl.handle.net/1843/ESBF-8UZJAJ
Data do documento:	31-may-2012
Aparece en las colecciones:	Dissertações de Mestrado

archivos asociados a este elemento:

archivo	Descripción	Tamaño	Formato
rodrigodemagalhaessilva.pdf		2.93 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas