Algoritmos de mineração de dados eficiente quanto ao consumo de memória

Gustavo Menezes Siqueira

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/SLBS-643J9H

Type:	Dissertação de Mestrado
Title:	Algoritmos de mineração de dados eficiente quanto ao consumo de memória
Authors:	Gustavo Menezes Siqueira
First Advisor:	Wagner Meira Junior
First Referee:	Edleno Silva de Moura
Second Referee:	Márcio Luiz Bunte de Carvalho
Third Referee:	Nivio Ziviani
Abstract:	A quantidade de dados submetida às aplicações de mineração de dados tem crescido consideravelmente como conseqüência indireta das reduções dos custos de coleta, transmissão e armazenamento de dados. Portanto, as aplicações de mineração de dados devem ser escaláveis, isto é, as perdas em desempenho devem ser pequenas com o aumento do tamanho da entrada. A mineração de conjuntos freqüentes é uma aplicação popular de mineração de dados para a qual há diversos algoritmos e implementações. O EClaT está entre os algoritmos mais bem-sucedidos e conhecidos. Seu tipo abstrato de dados que mais consome memória é o conjunto de números naturais. Nesse trabalho, substituímos a implementação desse tipo abstrato de dados por outra, comumente empregada por algoritmos de recuperação de informação mas nunca antes empregada por algoritmos de mineração de dados, que economiza memória. Também adaptamos para o novo contexto e/ou implementamos outras estratégias de economia de memória. Obtivemos economia do consumo máximo de memória de até uma ordem de magnitude em relação à implementação original.
Abstract:	The volume of data input to data mining applications has grown considerably as an indirect consequence of the price reductions for data aquisition, transmission and storage. Thus, data mining applications must be scalable, that is, the losses in performance should be small when the size of the input is increased. Frequent itemset mining is a popular data mining application for which there are several algorithms and implementations. EClaT is among the most successful and wellknown algorithms. Its most memory consuming abstract data type is the natural number set. In this work, we replaced the implementation for this abstract data type for another, commonly employed by information retrieval algorithms but never before employed by data mining algorithms, that saves memory. We adapted to the new context and/or implemented other memory saving techniques as well. We achived an economy in maximum memory consumption of up to an order of magnitude compared to the original implementation.
Subject:	Computação Mineração de dados (Computação)
language:	Português
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
Rights:	Acesso Aberto
URI:	http://hdl.handle.net/1843/SLBS-643J9H
Issue Date:	16-Jul-2004
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
gustavomenezessiqueira.pdf		5.26 MB	Adobe PDF	View/Open

Show full item record