Use este identificador para citar ou linkar para este item: http://hdl.handle.net/1843/52757
Tipo: Dissertação
Título: Análise de fluxos de dados economicamente eficientes
Autor(es): Roberto Lourenço de Oliveira Júnior
Primeiro Orientador: Adriano Alonso Veloso
metadata.dc.contributor.advisor-co2: Wagner Meira Júnior
Primeiro membro da banca : Wagner Meira Júnior
Segundo membro da banca: Adriano César Machado Pereira
Terceiro membro da banca: Renato Antônio Celso Ferreira
Quarto membro da banca: Srinivasan Parthasarathy
Resumo: Process data in streaming has becoming an interesting model to extract information from large data sets. However, such processing model poses restrictions in terms of memory and time. In case of learning algorithms, such as classification and clustering algorithms, there exists an another issue called Concept Drift, which consist of changes in the data caused by failures or appearance of new data sources, natural evolution of data, among others reasons. In this work we address data stream challenges by proposing our method Economically-Efficient Selective Sampling, which selects relevant training instances at each time step, so that training sets are kept small while providing to the predictive model two capabilities: adaptiveness and memorability. Adaptiveness is the capability to the predictive model suit itself to concept drift, while memorability is the capability to recover itself from concept drifts. Provide simultaneously both capabilities to the predictive model lead to a conflicting-objective problem, and our method employ notions of Economics in order to find a proper balance among adaptiveness and memorability. We performed the analysis of our method in several applications against representative state-of-the-art algorithms. Evaluation reveals improvements in terms of error reduction (up to 14%) and reduction of training resources (by orders of magnitude).
Abstract: Processar dados na forma de fluxo tem se tornado um interessante modelo para extrair informação de grandes conjuntos de dados. Entretanto, tal modelo de processamento impõe restrições em termos de memória e tempo. No caso de algoritmos de aprendizado de máquina, tais como classificação e agrupamento, há outra restrição chamada Mudança de Conceito, em que consiste de mudanças nos dados causadas por falhas ou aparecimento de outras fontes de dados, evolução natural dos dados, entre outras razões. Neste trabalho nós atacamos os desafios de fluxos de dados propondo nosso método Amostragem Seletiva Economicamente Eficiente, que seleciona instâncias de treinamento relevantes a cada passo, mantendo assim o conjunto de treinamento pequeno enquanto provê ao modelo preditivo duas capacidades: Adaptação e Memorização. Adaptação é a capacidade do modelo preditivo adequar-se ao novo conceito, enquanto memorização é a capacidade do modelo preditivo recuperar-se da mudança de conceito. Prover ambas as capacidades simultaneamente ao modelo preditivo leva a um problema de conflito de objetivos, e nosso método aplica noções da economia para achar o melhor balanceamento entre adaptação e memorização. Nós realizamos análises do nosso método em várias aplicações contra algoritmos representativos do estado da arte. As avaliações revelam que nosso método superou os outros métodos em termos de redução de erro (acima de 14%) e redução de recursos de treinamento (ordens de magnitude).
Assunto: Computação - Teses.
Aprendizado do computador
Idioma: eng
País: Brasil
Editor: Universidade Federal de Minas Gerais
Sigla da Instituição: UFMG
Departamento: ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
Curso: Programa de Pós-Graduação em Ciência da Computação
Tipo de Acesso: Acesso Aberto
metadata.dc.rights.uri: http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
URI: http://hdl.handle.net/1843/52757
Data do documento: 15-Abr-2014
Aparece nas coleções:Dissertações de Mestrado

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
RobertoLourenço.pdf950.91 kBAdobe PDFVisualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons