On the impact of sample reduction strategies for heterogeneous network representation learning

Filipe Barreto do Nascimento

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/46003

Type:	Dissertação
Title:	On the impact of sample reduction strategies for heterogeneous network representation learning
Authors:	Filipe Barreto do Nascimento
First Advisor:	Rodrygo Luis Teodoro Santos
First Referee:	Adriano Alonso Veloso
Second Referee:	Fabrício Murai Ferreira
Third Referee:	Leandro Balby Marinho
Abstract:	Network embedding models map nodes of a graph to vectors in a low dimensional space, which in turn are used for multiple machine learning tasks, such as node classification, clustering, and visualization. With the growth of available large-scale network data, such techniques must be able to deal with increasingly bigger data sets, while still maintaining competitive results. In addition, most real-world graphs contain additional information regarding node and edge types, leading those to be often modeled as heterogeneous information networks. Thus, we focus on scalable heterogeneous network embedding approaches, in particular random walk-based techniques, which sample sequences of nodes on the graph and use these as input to machine learning algorithms. In this dissertation, we propose two strategies to reduce the amount of input training data sampled from the graph, so as to achieve faster training times when using random walk-based methods: (1) centrality-based walks, which take into account structural centrality information of nodes in the graph, and (2) focused walks, which concentrate on specific node types depending on the task at hand. Our findings show that both strategies help alleviate the sample input size and suggest the presence of redundant data in traditional sampling processes for these models. Experimental results on three real-world graph data sets show that our proposed strategies are able to maintain and sometimes improve results on established network embedding methods using a reduced amount of training samples, validating their use as a novel tool in the design of scalable network embedding algorithms.
Abstract:	Modelos de aprendizado de representações em redes mapeiam vértices de um grafo para vetores em um espaço de baixa dimensionalidade, que por sua vez são utilizados em diversas tarefas de aprendizado de máquina, como classificação de vértices, agrupamento (\textit{clustering}) e visualização de dados. Tendo em vista o aumento na disponibilidade de dados em larga escala sobre redes e grafos, tais técnicas devem ser capazes de lidar com conjuntos de dados cada vez maiores e ainda assim garantir a obtenção de resultados competitivos. Adicionalmente, a maioria dos grafos que modelam sistemas reais contêm informações adicionais sobre os tipos de vértices e arestas do grafo, fazendo com que esses sejam normalmente modelados como redes de informação heterogêneas. Assim, consideramos abordagens escaláveis de aprendizado de representações em redes heterogêneas, em particular aquelas baseadas em passeios aleatórios, que amostram sequências de vértices no grafo e as utilizam como entrada pra algoritmos de aprendizado de máquina. Nesta dissertação, propomos duas estratégias para reduzir a quantidade de amostras de treino utilizadas como entrada para os algoritmos, com o intuito de treinar os modelos baseados em passeios aleatórios mais rapidamente: (1) passeios baseados em centralidade, que levam em consideração a informação estrutural de centralidade associada aos nós do grafo e (2) passeios focados, que concentram sua atenção em tipos específicos de vértices a depender da tarefa em questão. Nossas descobertas apontam que ambas as estratégias contribuem para a redução no conjunto de amostras de treino necessárias e sugerem a presença de dados redundantes nos processos de amostragem tradicionais referentes a esses modelos. Experimentos em três conjuntos de dados de sistemas reais demonstram que nossas abordagens propostas são capazes de manter e, ocasionalmente, superar resultados obtidos por modelos já estabelecidos na literatura, validando assim sua adoção como novas ferramentas no projeto de algoritmos escaláveis de aprendizado de representações em redes.
Subject:	Computação – Teses Aprendizado de representações – Teses Redes heterogêneas – Teses Passeio aleatório (Matemática) – Teses.
language:	eng
metadata.dc.publisher.country:	Brasil
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
metadata.dc.publisher.department:	ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
metadata.dc.publisher.program:	Programa de Pós-Graduação em Ciência da Computação
Rights:	Acesso Aberto
URI:	http://hdl.handle.net/1843/46003
Issue Date:	29-Apr-2021
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
On the impact of sample reduction strategies for heterogeneous network representation learning.pdf		9.51 MB	Adobe PDF	View/Open

Show full item record