A general framework to expand short text for topic modeling

Paulo Viana Bicalho

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/43917

Type:	Dissertação
Title:	A general framework to expand short text for topic modeling
Other Titles:	Um arcabouço para expansão de textos curtos em modelagem de tópicos
Authors:	Paulo Viana Bicalho
First Advisor:	Gisele Lobo Pappa
First Co-advisor:	Anisio Mendes Lacerda
First Referee:	Marcos André Gonçalves
Second Referee:	Pedro Olmo Stancioli Vaz De Melo
Third Referee:	Wagner Meira Júnior
Abstract:	Short texts are everywhere in the Web, including messages posted in social media, status messages and blog comments, and uncovering the topics of this type of messages is crucial to a wide range of applications, e.g. context analysis and user characterization. Extracting topics from short text is challenging because of the dependence of conventional methods, such as Latent Dirichlet Allocation, in word co-occurrence, which in short text are rare and make these methods suffer from severe data sparsity. In order to address the challenges imposed by this task, this dissertation proposes a general framework for topic modeling of short text by creating larger pseudo-document representations from the original documents. In the proposed framework, document components (e.g. words, bigrams or n-grams) are defined over a metric space, which provides information about the similarity between them. We present two simple, effective and efficient methods that specialize our general framework to create larger pseudo-documents. While the first method, CoFE (Co-Frequency Expansion), considers word co-occurrence to define the metric space, the second, DREx (Distributed Representation-based Expansion), relies on distributed word vector representations. The pseudo-documents generated can be given as input to any topic modeling algorithm. Methods were evaluated in seven datasets using the normalized pointwise mutual information (NPMI) topic quality metric and also within the context of a text classification task. They were compared with five state-of-the-art methods for extracting topics by generating pseudo-documents or modifying current topic modeling methods for short text. Results show that DREx using the word embeddings generated by Glove significantly outperforms the baseline methods in terms of normalized pointwise mutual information and macro F1 score, with gains up to 15% in the latter.
Abstract:	Textos curtos são frequentemente encontrados na Web, e incluem mensagens publicadas em mídias sociais, mensagens de status, comentários de blogs, etc. Descobrir os tópicos ou assuntos presentes neste tipo de mensagens é crucial para uma ampla gama de aplicações, como análise de contexto e caracterização de usuários. No entanto, extrair tópicos de textos curtos é desafiador. Isto porque existe uma dependência dos métodos convencionais, como Latent Dirichlet Allocation (LDA), da co-ocorrência de palavras, que em textos curtos são raras. Dados os desafios dessa tarefa, esta dissertação propõe um arcabouço para modelagem de tópicos em textos curtos que trabalha expandindo os documentos originais, transformando-os em pseudo-documentos maiores e com mais informações. No arcabouço proposto, os documentos são decompostos em componentes (palavras, bigramas ou n-gramas) definidos sobre um espaço métrico, capaz de fornecer informações sobre a similaridade entre esses componentes. Apresentamos então duas especializações do nosso arcabouço que, apesar de simples, são eficazes e eficientes para a geração de pseudo-documentos a partir dos documentos de texto curto originais. Enquanto o primeiro método, CoFE (Co-Frequency Expansion), considera a co-ocorrência de palavras para definir o espaço métrico, o segundo, DREx (Distributed Representation-based Expansion), baseia-se em representações vetoriais de palavras. Os pseudo-documentos gerados podem ser dados como entrada para qualquer algoritmo de modelagem de tópicos, o que torna nossa abordagem ainda mais genérica e flexível. Comparamos os resultados das estratégias propostas com cinco algoritmos estado-da-arte que seguem duas estretégias: geram peduso-documentos ou modificam os métodos convencionais de extração de tópicos. Os métodos foram avaliados em sete conjuntos de dados usando a métrica de qualidade de tópico Normalized Pointwise Mutual Information (NPMI) e também no contexto de classificação de documentos. Resultados experimentais mostram que o DREx com a representação vetorial gerada pelo método Glove supera os métodos existentes, obtendo valores mais elevados de NPMI e melhores valores de macro-F1, com ganhos de até 15% neste último.
Subject:	Computação – Teses Sistemas de recuperação da informação - Teses Modelagem de informações – Teses Mineração de dados (Computação) – Teses
language:	eng
metadata.dc.publisher.country:	Brasil
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
metadata.dc.publisher.department:	ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
metadata.dc.publisher.program:	Programa de Pós-Graduação em Ciência da Computação
Rights:	Acesso Aberto
URI:	http://hdl.handle.net/1843/43917
Issue Date:	17-Jan-2017
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
DissertacaoCorrigidaPauloBicalho.pdf		1.08 MB	Adobe PDF	View/Open

Show full item record