Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/BUOS-B4GK99
Type: Tese de Doutorado
Title: COWORDS: a probabilistic model for text visualization
Authors: Luís Gustavo Silva e Silva
First Advisor: Renato Martins Assuncao
First Referee: Marcos Oliveira Prates
Second Referee: Vinicius Diniz Mayrink
Third Referee: Marcelo Azevedo Costa
metadata.dc.contributor.referee4: Raquel Cardoso de Melo
metadata.dc.contributor.referee5: Ivair Ramos Silva
Abstract: Nesta tese, é introduzido o algoritmo COWORDS, um novo algoritmo estocástico para criação de múltiplas nuvens de palavras, uma nuvem para cada documento. As palavras, que são compartilhadas em múltipos documentos e possuem relevância nestes documentos, são colocadas na mesma posição em todas as nuvens. Portanto, documentos de textos similares produzem nuvens similares e compactas, facilitando a comparação. COWORDS é baseado em uma distribuição de probabilidade em que as congurações mais prováveis de serem obervadas desta distribuição são aquelas que seguem os princípios: tightness: as palavras que formam a nuvem devem car o mais próximas uma das outras; overlapping: as palavras não podem se sobrepor em todas as nuvens; position: as palavras que são compartilhadas pelas múltiplas nuvens deverão aparecer sempre na mesma posição. Congurações que não seguem estes princípios tem uma probabilidade baixa de serem observadas. Para selecionar amostras de congurações desta distribuição utilizamos métodos de Markov Chain Monte Carlo (MCMC). Uma extensão do COWORDS para geração de múltiplas nuvens de palavras que leva em consideração a semântica das palavras também é introduzida nesta tese. Portanto, palavras que são semânticamente correlacionadas deverão car próximas uma das outras em todas as nuvens, com isso adicionamos mais um princípio chamado semantic. Vários estudos de simulação, bem como estudos de casos são realizados para avaliar e demonstrar a ecácia do algoritimo COWORDS.
Abstract: This thesis introduces COWORDS, a new stochastic algorithm to create multiple word clouds, one for each document. The shared words in multiple documents are placed in the same position in all clouds. Similar documents produce similar and compact clouds, making easier to compare and interpret simultaneously several word clouds. The algorithm is based on a probability distribution in which the most probable congurations are those with a desirable visual aspect, such as a low value for the total distance between the words in all clouds. The visual aspect and the probabilistic model are guided by three principles: (i) tightness: it requires that the returned congurations should have all clouds with a minimum empty space amount between the words; (ii) overlapping: the words in each cloud must have no overlap; (iii) position: the words must be in the same spatial location in each cloud where they appear. The word congurations that do not follow these principles have a low probability of being observed. We built a Metropolis-Hastings algorithm, a special case of a Markov Chain Monte Carlo (MCMC) simulation method, to sample from the proposed clouds probability distribution. Our algorithm can easily incorporate additional constraints besides requiring the same position of the words in the dierent clouds. In addition, an extension of COWORDS is proposed. This extension allows the COWORDS algorithm to generate temporal word clouds preserving the semantic position of the words across all clouds. This new feature keeps the three main principles of COWORDS and adds one more: semantic: the words semantically correlated must be close to each other in all word clouds. Several simulation studies as well as case studies are conducted to evaluate and demonstrate the eectiveness of the COWORDS algorithm.
Subject: Estatística
Markov, Processos de
Visualização da informação
language: Inglês
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/BUOS-B4GK99
Issue Date: 12-Dec-2017
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
tese_principal.pdf5.77 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.