Please use this identifier to cite or link to this item:
http://hdl.handle.net/1843/BUOS-B4GK99
Type: | Tese de Doutorado |
Title: | COWORDS: a probabilistic model for text visualization |
Authors: | Luís Gustavo Silva e Silva |
First Advisor: | Renato Martins Assuncao |
First Referee: | Marcos Oliveira Prates |
Second Referee: | Vinicius Diniz Mayrink |
Third Referee: | Marcelo Azevedo Costa |
metadata.dc.contributor.referee4: | Raquel Cardoso de Melo |
metadata.dc.contributor.referee5: | Ivair Ramos Silva |
Abstract: | Nesta tese, é introduzido o algoritmo COWORDS, um novo algoritmo estocástico para criação de múltiplas nuvens de palavras, uma nuvem para cada documento. As palavras, que são compartilhadas em múltipos documentos e possuem relevância nestes documentos, são colocadas na mesma posição em todas as nuvens. Portanto, documentos de textos similares produzem nuvens similares e compactas, facilitando a comparação. COWORDS é baseado em uma distribuição de probabilidade em que as congurações mais prováveis de serem obervadas desta distribuição são aquelas que seguem os princípios: tightness: as palavras que formam a nuvem devem car o mais próximas uma das outras; overlapping: as palavras não podem se sobrepor em todas as nuvens; position: as palavras que são compartilhadas pelas múltiplas nuvens deverão aparecer sempre na mesma posição. Congurações que não seguem estes princípios tem uma probabilidade baixa de serem observadas. Para selecionar amostras de congurações desta distribuição utilizamos métodos de Markov Chain Monte Carlo (MCMC). Uma extensão do COWORDS para geração de múltiplas nuvens de palavras que leva em consideração a semântica das palavras também é introduzida nesta tese. Portanto, palavras que são semânticamente correlacionadas deverão car próximas uma das outras em todas as nuvens, com isso adicionamos mais um princípio chamado semantic. Vários estudos de simulação, bem como estudos de casos são realizados para avaliar e demonstrar a ecácia do algoritimo COWORDS. |
Abstract: | This thesis introduces COWORDS, a new stochastic algorithm to create multiple word clouds, one for each document. The shared words in multiple documents are placed in the same position in all clouds. Similar documents produce similar and compact clouds, making easier to compare and interpret simultaneously several word clouds. The algorithm is based on a probability distribution in which the most probable congurations are those with a desirable visual aspect, such as a low value for the total distance between the words in all clouds. The visual aspect and the probabilistic model are guided by three principles: (i) tightness: it requires that the returned congurations should have all clouds with a minimum empty space amount between the words; (ii) overlapping: the words in each cloud must have no overlap; (iii) position: the words must be in the same spatial location in each cloud where they appear. The word congurations that do not follow these principles have a low probability of being observed. We built a Metropolis-Hastings algorithm, a special case of a Markov Chain Monte Carlo (MCMC) simulation method, to sample from the proposed clouds probability distribution. Our algorithm can easily incorporate additional constraints besides requiring the same position of the words in the dierent clouds. In addition, an extension of COWORDS is proposed. This extension allows the COWORDS algorithm to generate temporal word clouds preserving the semantic position of the words across all clouds. This new feature keeps the three main principles of COWORDS and adds one more: semantic: the words semantically correlated must be close to each other in all word clouds. Several simulation studies as well as case studies are conducted to evaluate and demonstrate the eectiveness of the COWORDS algorithm. |
Subject: | Estatística Markov, Processos de Visualização da informação |
language: | Inglês |
Publisher: | Universidade Federal de Minas Gerais |
Publisher Initials: | UFMG |
Rights: | Acesso Aberto |
URI: | http://hdl.handle.net/1843/BUOS-B4GK99 |
Issue Date: | 12-Dec-2017 |
Appears in Collections: | Teses de Doutorado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
tese_principal.pdf | 5.77 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.