Distance-based clustering methods for large datasets

Gustavo Rodrigues Lacerda Silva

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/RAOA-BBZLL4

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Antonio de Padua Braga	pt_BR
dc.contributor.referee1	Rodney Rezende Saldanha	pt_BR
dc.contributor.referee2	Eduardo Mazoni Andrade Marcal Mendes	pt_BR
dc.contributor.referee3	Luis Enrique Zarate Galvez	pt_BR
dc.contributor.referee4	Douglas Alexandre Gomes Vieira	pt_BR
dc.creator	Gustavo Rodrigues Lacerda Silva	pt_BR
dc.date.accessioned	2019-08-10T01:42:26Z	-
dc.date.available	2019-08-10T01:42:26Z	-
dc.date.issued	2018-07-30	pt_BR
dc.identifier.uri	http://hdl.handle.net/1843/RAOA-BBZLL4	-
dc.description.abstract	This PhD dissertation presents a methodology focused on clustering problems with large data volumes. The goal is to design algorithms that can process large volumes of data without loss of clustering quality. Specifically, this Doctoral dissertation presents two novel, fast and scalable distance-based clustering algorithms well suited to analyse large datasets. The first one is the GPIC clustering method, which performs the calculation of the anity matrix and the eigenvectors with the support of the Graphics Processing Unit - GPU. The second method, called bdrFCM, reduces the volume of data using the border of the Fuzzy c-means cluster results as a fundamental principle. Results found with synthetic and real datasets demonstrate that the approaches proposed by this work can process a significant amount of data in less time and reduce the volume of data, whilst maintaining the quality of the clustering result	pt_BR
dc.description.resumo	Este trabalho apresenta uma metodologia direcionada a problemas de agrupamentos com grandes volumes de dados. O objetivo ´e projetar algoritmos que tenham a capacidade de processar grandes volumes de dados sem a perda de qualidade do agrupamento. Dois novos m´etodos de agrupamento sao propostos. O primeiro ´e o m´etodo de agrupamento GPIC, que realiza tanto o c´alculo da matriz de afinidades quanto dos autovetores com o aux´lio de Unidades de Processamento Gr´afico GPUs, do ingles Graphics Processing Unit. O segundo m´etodo, denominado bdrFCM, reduz o volume de dados utilizando como princ´pio b´asico a borda dos agrupamentos resultantes. Resultados encontrados com bases de dados sint´eticas e reais demonstram que as abordagens propostas por este trabalho conseguem processar grande quantidade de dados em tempo menor e reduzir o volume de dados, mantendo a qualidade do agrupamento	pt_BR
dc.language	Inglês	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Engenharia elétrica	pt_BR
dc.subject.other	Algoritmos	pt_BR
dc.subject.other	Engenharia elétrica	pt_BR
dc.title	Distance-based clustering methods for large datasets	pt_BR
dc.type	Tese de Doutorado	pt_BR
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
85d.pdf		8.93 MB	Adobe PDF	View/Open

Show simple item record