Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/ESBF-8XFMG4
Type: Dissertação de Mestrado
Title: Aprendizado ativo em modo batch ordenado
Authors: Thiago Nunes Coelho Cardoso
First Advisor: Marcos Andre Goncalves
First Co-advisor: Mirella Moura Moro
First Referee: Mirella Moura Moro
Second Referee: Altigran Soares da Silva
Third Referee: Jussara Marques de Almeida
Abstract: Com a enorme quantidade de informação gerada todos os dias na Internet, fica cada vez mais difícil, se não impossível, processar e administrar manualmente esses dados. Como uma maneira de contornar este problema, algoritmos de Aprendizado de Máquina vêmsendo cada vez mais utilizados nos mais distintos domínios. Um tipo de algoritmo de aprendizado, o Aprendizado Ativo, surgiu como uma maneira de otimizar a fase de treinamento de alguns desses métodos, com a premissa de que os algoritmos são capazes de obter melhores resultados utilizando menos treinamento caso possam escolher quaisinstâncias devem ser rotuladas. Essa é um premissa especialmente interessante em cenários em que o dado não rotulado é abundante e existe um custo, não desprezível, associado ao processo de rotular uma determinada instância. Em sua forma original, uma instância é rotulada e utilizada pelo algoritmo a cada iteração, o que impossibilita o uso de vários oráculos em paralelo. Para resolver este problema, surgiram osmétodos de Aprendizado Ativo em Modo Batch, que são capazes de selecionar mais de uma instância a cada iteração. Apesar de estes métodos resolverem o problema dos múltiplos oráculos, ainda existe uma dependência de se executar o algoritmo a cada batch analisado. Com o crescimento do uso desses métodos em ambientes corporativos, surgiu a necessidade de se evitar iterações constantes e, consequentemente, o tempo ocioso de analistas contratados, que esperam por um novo batch. Nesta dissertação, o problema de Aprendizado Ativo em Modo Batch Ordenado é descrito propiciando umrelaxamento do método tradicional em Batch. Ao selecionar uma lista ordenada de instâncias é possível gerar uma lista com um número arbitrário de documentos a serem rotulados. Dessa maneira, as iterações do algoritmo podem ser espaçadas conforme a necessidade do usuário. Tal fato possibilita que uma lista de instâncias suficientemente grande (para um dia completo de trabalho do analista) possa ser gerada fora do horário comercial. Além da definição formal deste problema, uma solução é apresentada, utilizando um framework que constrói a lista iterativamente ponderando a utilidade dainstância para o classificador (incerteza) e a diversidade trazida ao modelo em relação as instâncias já selecionadas. A avaliação experimental demonstra que o uso do Batch Ordenado provê uma redução do número de execuções do algoritmo, mantendo a qual-idade das instâncias selecionadas. Em alguns casos, utilizando somente o conteúdo não rotulado disponível, os resultados obtidos são melhores que os obtidos utilizando métodos tradicionais. Em outras palavras, uma lista ordenada de instâncias, gerada a partir do conteúdo não analisado, foi responsável por um processo de rotulação com resultados estatisticamente melhores ou iguais ao de algoritmos tradicionais de aprendizado ativo mas sem suas limitações.
Abstract: With the large amount of information generated every day on the internet, it is getting harder, if not impossible, to manually administrate and process such data. In order to overcome this problem, Machine Learning algorithms are becoming widely used in different domains. The Active Learning field arose as a way to optimize the training phase of some machine learning methods. The main idea is that algorithms can achieve better results with smaller training sets if they are allowed to select which instances should be labeled. This assumption is specially interesting in scenarios in which unlabeled data is abundant and there is a cost, not negligible, associated with instance labeling. In its original form, one instance is labeled and incorporated by the Active Learning algorithm at each iteration, thus making it impossible to use multiple oracles in parallel. In order to solve this problem, Batch-Mode Active Learning methods arose by being able to select more than one instance at each iteration. Although this methods allow the use of multiple oracles, it is still necessary to run the algorithm at each annotated batch. With the increasing use of these methods in business environments, it is important to reduce the necessity of constant iterations, and consequently, the analysts idle time when waiting for a new batch to be created. In this dissertation, the Ranked Batch-Mode Active Learning problem is described. It relaxes traditional Batch-Mode Active Learning methods by generating a query that is an ordered list of instances, thus allowing batches to be of arbitrarily large sizes. In this way, the algorithm iterations can be spaced according to the user needs. This characteristics allow that a sufficiently large instance list (for a full work day) be generated outside working hours, then avoiding frequent stops for batch construction. In addition to the formal definition of this problem, one solution is presented that consists of a framework which iteratively builds the instance list by weighting the instance utility for the classifier(uncertainty) and the diversity brought to the model regarding already labeled and selected instances. The experimental evaluation shows that the Ranked Batch allows the reduction of the algorithm executions while maintaining the quality of the selected instances. In some cases, using only unlabeled data, the results obtained are better to the ones of traditional methods. In other words, an ordered list of instances, generated using unlabeled data, was able to guide a labeling process with results statistically better or equal to traditional active learning algorithms without their limitations.
Subject: Computação
language: Inglês
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/ESBF-8XFMG4
Issue Date: 4-Jul-2012
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
thiagonunescoelhocardoso.pdf4.19 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.