Please use this identifier to cite or link to this item:
http://hdl.handle.net/1843/ESBF-B44K2E
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor1 | Mirella Moura Moro | pt_BR |
dc.contributor.referee1 | Ana Carolina Brandão Salgado | pt_BR |
dc.contributor.referee2 | Ana Paula Couto da Silva | pt_BR |
dc.contributor.referee3 | Michele Amaral Brand?o | pt_BR |
dc.contributor.referee4 | Michele Amaral Brandao | pt_BR |
dc.creator | Levy de Souza Silva | pt_BR |
dc.date.accessioned | 2019-08-14T12:43:37Z | - |
dc.date.available | 2019-08-14T12:43:37Z | - |
dc.date.issued | 2018-06-15 | pt_BR |
dc.identifier.uri | http://hdl.handle.net/1843/ESBF-B44K2E | - |
dc.description.abstract | Data deduplication aims to find and remove duplicate records in databases. Duplicate records are data instances that represent the same object in the real world. Usually, the deduplication has three steps: indexing (which assigns a block key value for each record), clustering (which groups the records with similar block key) and classification (which compares the records within the same group). Our study focuses on the indexing step, which creates block key structures to group similar records. Indexing must be effective (as to better distinguish the values) and efficient (as to allow faster deduplication runtime). Thus, in this step, an attribute is chosen and its value is encoded by a function to produce the block key value. Currently, the indexing attributes are chosen by expert users, which takes time and increases the process total cost. Therefore, we present the method 3DR-Indexing, which automatically selects the best attributes for the indexing step. Furthermore, we analyze the impact of the indexing attribute over data deduplication steps. Finally, we evaluate the indexing attribute and the proposed method over 13 distinct datasets, that is, with different domains, number of duplicate records and the total of instances. Our results indicate the indexing attribute has highest impact over deduplication process. For instance, the best indexing attribute differs from the worst one by an average of 44% in terms of F-Measure (considering all datasets). Moreover, the 3DR Indexing has significant results, because it identifies the best indexing attribute in 10 out of 13 datasets. | pt_BR |
dc.description.resumo | Deduplicação é a tarefa de encontrar e remover registros duplicados em bancos de dados. Registros duplicados são instâncias que representam o mesmo objeto no mundo real. Via de regra, a deduplicação é composta por três etapas: indexação (que atribui uma chave de bloco a cada registro), clusterização (que agrupa os registros de acordo com as chaves) e classificação (que compara os registros dentro de cada grupo). Nosso estudo foca na indexação, a qual cria estruturas de chaves de bloco para agrupar registros similares. Atualmente, os atributos de indexação são escolhidos por usuários especialistas sobre o domínio dos dados, o que requer tempo, além de aumentar o custo total do processo. Por isso, nós apresentamos o método 3DR-Indexing, que seleciona automaticamente os melhores atributos de indexação. Por fim, nossas avaliações experimentais indicam que o 3DR-Indexing tem resultados significantes, pois ele identifica o melhor atributo em 10 dos 13 conjuntos de dados utilizados. | pt_BR |
dc.language | Português | pt_BR |
dc.publisher | Universidade Federal de Minas Gerais | pt_BR |
dc.publisher.initials | UFMG | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.subject | Deduplicação de Dados | pt_BR |
dc.subject | Resolução de Entidades | pt_BR |
dc.subject | Indexação | pt_BR |
dc.subject.other | Computação | pt_BR |
dc.subject.other | Deduplicação de dados | pt_BR |
dc.subject.other | Seleção de atributos | pt_BR |
dc.subject.other | Resolução de entidades | pt_BR |
dc.subject.other | Indexação | pt_BR |
dc.title | 3DR-Indexing: um método para identificação automática dos melhores atributos de indexação em deduplicação de dados | pt_BR |
dc.type | Dissertação de Mestrado | pt_BR |
Appears in Collections: | Dissertações de Mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
levydesouza.pdf | 2.14 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.