Distance-based clustering methods for large datasets

Gustavo Rodrigues Lacerda Silva

Use este identificador para citar ou linkar para este item: http://hdl.handle.net/1843/RAOA-BBZLL4

Tipo:	Tese de Doutorado
Título:	Distance-based clustering methods for large datasets
Autor(es):	Gustavo Rodrigues Lacerda Silva
Primeiro Orientador:	Antonio de Padua Braga
Primeiro membro da banca :	Rodney Rezende Saldanha
Segundo membro da banca:	Eduardo Mazoni Andrade Marcal Mendes
Terceiro membro da banca:	Luis Enrique Zarate Galvez
Quarto membro da banca:	Douglas Alexandre Gomes Vieira
Resumo:	Este trabalho apresenta uma metodologia direcionada a problemas de agrupamentos com grandes volumes de dados. O objetivo ´e projetar algoritmos que tenham a capacidade de processar grandes volumes de dados sem a perda de qualidade do agrupamento. Dois novos m´etodos de agrupamento sao propostos. O primeiro ´e o m´etodo de agrupamento GPIC, que realiza tanto o c´alculo da matriz de afinidades quanto dos autovetores com o aux´lio de Unidades de Processamento Gr´afico GPUs, do ingles Graphics Processing Unit. O segundo m´etodo, denominado bdrFCM, reduz o volume de dados utilizando como princ´pio b´asico a borda dos agrupamentos resultantes. Resultados encontrados com bases de dados sint´eticas e reais demonstram que as abordagens propostas por este trabalho conseguem processar grande quantidade de dados em tempo menor e reduzir o volume de dados, mantendo a qualidade do agrupamento
Abstract:	This PhD dissertation presents a methodology focused on clustering problems with large data volumes. The goal is to design algorithms that can process large volumes of data without loss of clustering quality. Specifically, this Doctoral dissertation presents two novel, fast and scalable distance-based clustering algorithms well suited to analyse large datasets. The first one is the GPIC clustering method, which performs the calculation of the anity matrix and the eigenvectors with the support of the Graphics Processing Unit - GPU. The second method, called bdrFCM, reduces the volume of data using the border of the Fuzzy c-means cluster results as a fundamental principle. Results found with synthetic and real datasets demonstrate that the approaches proposed by this work can process a significant amount of data in less time and reduce the volume of data, whilst maintaining the quality of the clustering result
Assunto:	Algoritmos Engenharia elétrica
Idioma:	Inglês
Editor:	Universidade Federal de Minas Gerais
Sigla da Instituição:	UFMG
Tipo de Acesso:	Acesso Aberto
URI:	http://hdl.handle.net/1843/RAOA-BBZLL4
Data do documento:	30-Jul-2018
Aparece nas coleções:	Teses de Doutorado

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
85d.pdf		8.93 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas