Please use this identifier to cite or link to this item:
http://hdl.handle.net/1843/SLBS-643J9H
Type: | Dissertação de Mestrado |
Title: | Algoritmos de mineração de dados eficiente quanto ao consumo de memória |
Authors: | Gustavo Menezes Siqueira |
First Advisor: | Wagner Meira Junior |
First Referee: | Edleno Silva de Moura |
Second Referee: | Márcio Luiz Bunte de Carvalho |
Third Referee: | Nivio Ziviani |
Abstract: | A quantidade de dados submetida às aplicações de mineração de dados tem crescido consideravelmente como conseqüência indireta das reduções dos custos de coleta, transmissão e armazenamento de dados. Portanto, as aplicações de mineração de dados devem ser escaláveis, isto é, as perdas em desempenho devem ser pequenas com o aumento do tamanho da entrada. A mineração de conjuntos freqüentes é uma aplicação popular de mineração de dados para a qual há diversos algoritmos e implementações. O EClaT está entre os algoritmos mais bem-sucedidos e conhecidos. Seu tipo abstrato de dados que mais consome memória é o conjunto de números naturais. Nesse trabalho, substituímos a implementação desse tipo abstrato de dados por outra, comumente empregada por algoritmos de recuperação de informação mas nunca antes empregada por algoritmos de mineração de dados, que economiza memória. Também adaptamos para o novo contexto e/ou implementamos outras estratégias de economia de memória. Obtivemos economia do consumo máximo de memória de até uma ordem de magnitude em relação à implementação original. |
Abstract: | The volume of data input to data mining applications has grown considerably as an indirect consequence of the price reductions for data aquisition, transmission and storage. Thus, data mining applications must be scalable, that is, the losses in performance should be small when the size of the input is increased. Frequent itemset mining is a popular data mining application for which there are several algorithms and implementations. EClaT is among the most successful and wellknown algorithms. Its most memory consuming abstract data type is the natural number set. In this work, we replaced the implementation for this abstract data type for another, commonly employed by information retrieval algorithms but never before employed by data mining algorithms, that saves memory. We adapted to the new context and/or implemented other memory saving techniques as well. We achived an economy in maximum memory consumption of up to an order of magnitude compared to the original implementation. |
Subject: | Computação Mineração de dados (Computação) |
language: | Português |
Publisher: | Universidade Federal de Minas Gerais |
Publisher Initials: | UFMG |
Rights: | Acesso Aberto |
URI: | http://hdl.handle.net/1843/SLBS-643J9H |
Issue Date: | 16-Jul-2004 |
Appears in Collections: | Dissertações de Mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
gustavomenezessiqueira.pdf | 5.26 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.