Análise de fluxos de dados economicamente eficientes

dc.creatorRoberto Lourenço de Oliveira Júnior
dc.date.accessioned2023-05-03T16:27:04Z
dc.date.accessioned2025-09-09T01:29:37Z
dc.date.available2023-05-03T16:27:04Z
dc.date.issued2014-04-15
dc.description.abstractProcessar dados na forma de fluxo tem se tornado um interessante modelo para extrair informação de grandes conjuntos de dados. Entretanto, tal modelo de processamento impõe restrições em termos de memória e tempo. No caso de algoritmos de aprendizado de máquina, tais como classificação e agrupamento, há outra restrição chamada Mudança de Conceito, em que consiste de mudanças nos dados causadas por falhas ou aparecimento de outras fontes de dados, evolução natural dos dados, entre outras razões. Neste trabalho nós atacamos os desafios de fluxos de dados propondo nosso método Amostragem Seletiva Economicamente Eficiente, que seleciona instâncias de treinamento relevantes a cada passo, mantendo assim o conjunto de treinamento pequeno enquanto provê ao modelo preditivo duas capacidades: Adaptação e Memorização. Adaptação é a capacidade do modelo preditivo adequar-se ao novo conceito, enquanto memorização é a capacidade do modelo preditivo recuperar-se da mudança de conceito. Prover ambas as capacidades simultaneamente ao modelo preditivo leva a um problema de conflito de objetivos, e nosso método aplica noções da economia para achar o melhor balanceamento entre adaptação e memorização. Nós realizamos análises do nosso método em várias aplicações contra algoritmos representativos do estado da arte. As avaliações revelam que nosso método superou os outros métodos em termos de redução de erro (acima de 14%) e redução de recursos de treinamento (ordens de magnitude).
dc.identifier.urihttps://hdl.handle.net/1843/52757
dc.languageeng
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/pt/
dc.subjectComputação - Teses.
dc.subjectAprendizado do computador
dc.subject.otherEvolving Data Streams
dc.subject.otherMachine Learning
dc.subject.otherSelective Sampling
dc.subject.otherEconomic Efficiency
dc.titleAnálise de fluxos de dados economicamente eficientes
dc.typeDissertação de mestrado
local.contributor.advisor-co1Wagner Meira Júnior
local.contributor.advisor1Adriano Alonso Veloso
local.contributor.advisor1Latteshttp://lattes.cnpq.br/9973021912226739
local.contributor.referee1Wagner Meira Júnior
local.contributor.referee1Adriano César Machado Pereira
local.contributor.referee1Renato Antônio Celso Ferreira
local.contributor.referee1Srinivasan Parthasarathy
local.creator.Latteshttp://lattes.cnpq.br/2168951021755332
local.description.resumoProcess data in streaming has becoming an interesting model to extract information from large data sets. However, such processing model poses restrictions in terms of memory and time. In case of learning algorithms, such as classification and clustering algorithms, there exists an another issue called Concept Drift, which consist of changes in the data caused by failures or appearance of new data sources, natural evolution of data, among others reasons. In this work we address data stream challenges by proposing our method Economically-Efficient Selective Sampling, which selects relevant training instances at each time step, so that training sets are kept small while providing to the predictive model two capabilities: adaptiveness and memorability. Adaptiveness is the capability to the predictive model suit itself to concept drift, while memorability is the capability to recover itself from concept drifts. Provide simultaneously both capabilities to the predictive model lead to a conflicting-objective problem, and our method employ notions of Economics in order to find a proper balance among adaptiveness and memorability. We performed the analysis of our method in several applications against representative state-of-the-art algorithms. Evaluation reveals improvements in terms of error reduction (up to 14%) and reduction of training resources (by orders of magnitude).
local.publisher.countryBrasil
local.publisher.departmentICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Ciência da Computação

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
RobertoLourenço.pdf
Tamanho:
950.91 KB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Plain Text
Descrição: