Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/BUOS-B4GK99
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Renato Martins Assuncaopt_BR
dc.contributor.referee1Marcos Oliveira Pratespt_BR
dc.contributor.referee2Vinicius Diniz Mayrinkpt_BR
dc.contributor.referee3Marcelo Azevedo Costapt_BR
dc.contributor.referee4Raquel Cardoso de Melopt_BR
dc.contributor.referee5Ivair Ramos Silvapt_BR
dc.creatorLuís Gustavo Silva e Silvapt_BR
dc.date.accessioned2019-08-14T07:12:08Z-
dc.date.available2019-08-14T07:12:08Z-
dc.date.issued2017-12-12pt_BR
dc.identifier.urihttp://hdl.handle.net/1843/BUOS-B4GK99-
dc.description.abstractThis thesis introduces COWORDS, a new stochastic algorithm to create multiple word clouds, one for each document. The shared words in multiple documents are placed in the same position in all clouds. Similar documents produce similar and compact clouds, making easier to compare and interpret simultaneously several word clouds. The algorithm is based on a probability distribution in which the most probable congurations are those with a desirable visual aspect, such as a low value for the total distance between the words in all clouds. The visual aspect and the probabilistic model are guided by three principles: (i) tightness: it requires that the returned congurations should have all clouds with a minimum empty space amount between the words; (ii) overlapping: the words in each cloud must have no overlap; (iii) position: the words must be in the same spatial location in each cloud where they appear. The word congurations that do not follow these principles have a low probability of being observed. We built a Metropolis-Hastings algorithm, a special case of a Markov Chain Monte Carlo (MCMC) simulation method, to sample from the proposed clouds probability distribution. Our algorithm can easily incorporate additional constraints besides requiring the same position of the words in the dierent clouds. In addition, an extension of COWORDS is proposed. This extension allows the COWORDS algorithm to generate temporal word clouds preserving the semantic position of the words across all clouds. This new feature keeps the three main principles of COWORDS and adds one more: semantic: the words semantically correlated must be close to each other in all word clouds. Several simulation studies as well as case studies are conducted to evaluate and demonstrate the eectiveness of the COWORDS algorithm.pt_BR
dc.description.resumoNesta tese, é introduzido o algoritmo COWORDS, um novo algoritmo estocástico para criação de múltiplas nuvens de palavras, uma nuvem para cada documento. As palavras, que são compartilhadas em múltipos documentos e possuem relevância nestes documentos, são colocadas na mesma posição em todas as nuvens. Portanto, documentos de textos similares produzem nuvens similares e compactas, facilitando a comparação. COWORDS é baseado em uma distribuição de probabilidade em que as congurações mais prováveis de serem obervadas desta distribuição são aquelas que seguem os princípios: tightness: as palavras que formam a nuvem devem car o mais próximas uma das outras; overlapping: as palavras não podem se sobrepor em todas as nuvens; position: as palavras que são compartilhadas pelas múltiplas nuvens deverão aparecer sempre na mesma posição. Congurações que não seguem estes princípios tem uma probabilidade baixa de serem observadas. Para selecionar amostras de congurações desta distribuição utilizamos métodos de Markov Chain Monte Carlo (MCMC). Uma extensão do COWORDS para geração de múltiplas nuvens de palavras que leva em consideração a semântica das palavras também é introduzida nesta tese. Portanto, palavras que são semânticamente correlacionadas deverão car próximas uma das outras em todas as nuvens, com isso adicionamos mais um princípio chamado semantic. Vários estudos de simulação, bem como estudos de casos são realizados para avaliar e demonstrar a ecácia do algoritimo COWORDS.pt_BR
dc.languageInglêspt_BR
dc.publisherUniversidade Federal de Minas Geraispt_BR
dc.publisher.initialsUFMGpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectNuvem de Palavraspt_BR
dc.subjectVisualização Semânticapt_BR
dc.subjectVisualização de Textospt_BR
dc.subjectBusca Estocásticapt_BR
dc.subject.otherEstatísticapt_BR
dc.subject.otherMarkov, Processos dept_BR
dc.subject.otherVisualização da informaçãopt_BR
dc.titleCOWORDS: a probabilistic model for text visualizationpt_BR
dc.typeTese de Doutoradopt_BR
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
tese_principal.pdf5.77 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.