Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/52757
Type: Dissertação
Title: Análise de fluxos de dados economicamente eficientes
Authors: Roberto Lourenço de Oliveira Júnior
First Advisor: Adriano Alonso Veloso
metadata.dc.contributor.advisor-co2: Wagner Meira Júnior
First Referee: Wagner Meira Júnior
Second Referee: Adriano César Machado Pereira
Third Referee: Renato Antônio Celso Ferreira
metadata.dc.contributor.referee4: Srinivasan Parthasarathy
Abstract: Process data in streaming has becoming an interesting model to extract information from large data sets. However, such processing model poses restrictions in terms of memory and time. In case of learning algorithms, such as classification and clustering algorithms, there exists an another issue called Concept Drift, which consist of changes in the data caused by failures or appearance of new data sources, natural evolution of data, among others reasons. In this work we address data stream challenges by proposing our method Economically-Efficient Selective Sampling, which selects relevant training instances at each time step, so that training sets are kept small while providing to the predictive model two capabilities: adaptiveness and memorability. Adaptiveness is the capability to the predictive model suit itself to concept drift, while memorability is the capability to recover itself from concept drifts. Provide simultaneously both capabilities to the predictive model lead to a conflicting-objective problem, and our method employ notions of Economics in order to find a proper balance among adaptiveness and memorability. We performed the analysis of our method in several applications against representative state-of-the-art algorithms. Evaluation reveals improvements in terms of error reduction (up to 14%) and reduction of training resources (by orders of magnitude).
Abstract: Processar dados na forma de fluxo tem se tornado um interessante modelo para extrair informação de grandes conjuntos de dados. Entretanto, tal modelo de processamento impõe restrições em termos de memória e tempo. No caso de algoritmos de aprendizado de máquina, tais como classificação e agrupamento, há outra restrição chamada Mudança de Conceito, em que consiste de mudanças nos dados causadas por falhas ou aparecimento de outras fontes de dados, evolução natural dos dados, entre outras razões. Neste trabalho nós atacamos os desafios de fluxos de dados propondo nosso método Amostragem Seletiva Economicamente Eficiente, que seleciona instâncias de treinamento relevantes a cada passo, mantendo assim o conjunto de treinamento pequeno enquanto provê ao modelo preditivo duas capacidades: Adaptação e Memorização. Adaptação é a capacidade do modelo preditivo adequar-se ao novo conceito, enquanto memorização é a capacidade do modelo preditivo recuperar-se da mudança de conceito. Prover ambas as capacidades simultaneamente ao modelo preditivo leva a um problema de conflito de objetivos, e nosso método aplica noções da economia para achar o melhor balanceamento entre adaptação e memorização. Nós realizamos análises do nosso método em várias aplicações contra algoritmos representativos do estado da arte. As avaliações revelam que nosso método superou os outros métodos em termos de redução de erro (acima de 14%) e redução de recursos de treinamento (ordens de magnitude).
Subject: Computação - Teses.
Aprendizado do computador
language: eng
metadata.dc.publisher.country: Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.department: ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
metadata.dc.publisher.program: Programa de Pós-Graduação em Ciência da Computação
Rights: Acesso Aberto
metadata.dc.rights.uri: http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
URI: http://hdl.handle.net/1843/52757
Issue Date: 15-Apr-2014
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
RobertoLourenço.pdf950.91 kBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons