COWORDS: a probabilistic model for text visualization

Luís Gustavo Silva e Silva

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/BUOS-B4GK99

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Renato Martins Assuncao	pt_BR
dc.contributor.referee1	Marcos Oliveira Prates	pt_BR
dc.contributor.referee2	Vinicius Diniz Mayrink	pt_BR
dc.contributor.referee3	Marcelo Azevedo Costa	pt_BR
dc.contributor.referee4	Raquel Cardoso de Melo	pt_BR
dc.contributor.referee5	Ivair Ramos Silva	pt_BR
dc.creator	Luís Gustavo Silva e Silva	pt_BR
dc.date.accessioned	2019-08-14T07:12:08Z	-
dc.date.available	2019-08-14T07:12:08Z	-
dc.date.issued	2017-12-12	pt_BR
dc.identifier.uri	http://hdl.handle.net/1843/BUOS-B4GK99	-
dc.description.abstract	This thesis introduces COWORDS, a new stochastic algorithm to create multiple word clouds, one for each document. The shared words in multiple documents are placed in the same position in all clouds. Similar documents produce similar and compact clouds, making easier to compare and interpret simultaneously several word clouds. The algorithm is based on a probability distribution in which the most probable congurations are those with a desirable visual aspect, such as a low value for the total distance between the words in all clouds. The visual aspect and the probabilistic model are guided by three principles: (i) tightness: it requires that the returned congurations should have all clouds with a minimum empty space amount between the words; (ii) overlapping: the words in each cloud must have no overlap; (iii) position: the words must be in the same spatial location in each cloud where they appear. The word congurations that do not follow these principles have a low probability of being observed. We built a Metropolis-Hastings algorithm, a special case of a Markov Chain Monte Carlo (MCMC) simulation method, to sample from the proposed clouds probability distribution. Our algorithm can easily incorporate additional constraints besides requiring the same position of the words in the dierent clouds. In addition, an extension of COWORDS is proposed. This extension allows the COWORDS algorithm to generate temporal word clouds preserving the semantic position of the words across all clouds. This new feature keeps the three main principles of COWORDS and adds one more: semantic: the words semantically correlated must be close to each other in all word clouds. Several simulation studies as well as case studies are conducted to evaluate and demonstrate the eectiveness of the COWORDS algorithm.	pt_BR
dc.description.resumo	Nesta tese, é introduzido o algoritmo COWORDS, um novo algoritmo estocástico para criação de múltiplas nuvens de palavras, uma nuvem para cada documento. As palavras, que são compartilhadas em múltipos documentos e possuem relevância nestes documentos, são colocadas na mesma posição em todas as nuvens. Portanto, documentos de textos similares produzem nuvens similares e compactas, facilitando a comparação. COWORDS é baseado em uma distribuição de probabilidade em que as congurações mais prováveis de serem obervadas desta distribuição são aquelas que seguem os princípios: tightness: as palavras que formam a nuvem devem car o mais próximas uma das outras; overlapping: as palavras não podem se sobrepor em todas as nuvens; position: as palavras que são compartilhadas pelas múltiplas nuvens deverão aparecer sempre na mesma posição. Congurações que não seguem estes princípios tem uma probabilidade baixa de serem observadas. Para selecionar amostras de congurações desta distribuição utilizamos métodos de Markov Chain Monte Carlo (MCMC). Uma extensão do COWORDS para geração de múltiplas nuvens de palavras que leva em consideração a semântica das palavras também é introduzida nesta tese. Portanto, palavras que são semânticamente correlacionadas deverão car próximas uma das outras em todas as nuvens, com isso adicionamos mais um princípio chamado semantic. Vários estudos de simulação, bem como estudos de casos são realizados para avaliar e demonstrar a ecácia do algoritimo COWORDS.	pt_BR
dc.language	Inglês	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Nuvem de Palavras	pt_BR
dc.subject	Visualização Semântica	pt_BR
dc.subject	Visualização de Textos	pt_BR
dc.subject	Busca Estocástica	pt_BR
dc.subject.other	Estatística	pt_BR
dc.subject.other	Markov, Processos de	pt_BR
dc.subject.other	Visualização da informação	pt_BR
dc.title	COWORDS: a probabilistic model for text visualization	pt_BR
dc.type	Tese de Doutorado	pt_BR
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
tese_principal.pdf		5.77 MB	Adobe PDF	View/Open

Show simple item record