Word embedding-based representations for short text
Carregando...
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Tese de doutorado
Título alternativo
Representações de documentos curtos baseadas em vetores de palavras
Primeiro orientador
Membros da banca
Marcos André Gonçalves
Marco Antônio Pinheiro de Cristo
Alexandre Plastino de Carvalho
Pedro Olmo Stancioli Vaz de Melo
Marco Antônio Pinheiro de Cristo
Alexandre Plastino de Carvalho
Pedro Olmo Stancioli Vaz de Melo
Resumo
Short texts are everywhere in the Web, including social media, Q&A websites, advertisement text, and an increasing number of other applications. They are characterized by little context words and a large collection vocabulary. This makes the discovery of knowledge in short text challenging, motivating the development of novel effective methods. An important part of this research is focused on topic modeling that, beyond the popular LDA method, have produced specific algorithms for short text. Text mining techniques are dependent on the way text is represented. The need of fixed-length input for most machine learning algorithms asks for vector representations, such as the classics TF and TF-IDF. These representations are sparse and eventually induce the curse of dimensionality. In the level of words, word vector models, such as Skip-Gram and GloVe, produce embeddings that are sensitive to semantics and consistent with vector algebra. A natural evolution of this research is the derivation of document vectors. This work has contributions in two lines of research, namely, short text representation for document classification and short text topic modeling (STTM). In first line, we report a work that investigates proper ways of combining word vectors to produce document vectors. Strategies vary from simple approaches, such as sum and average of word vectors, to a sophisticated one based on the PSO meta-heuristic. Results on document classification are competitive with TF-IDF and show significant improvement over other methods. Regarding the second line of research, a framework that creates larger pseudo-documents for STTM is proposed, from which we derive two implementations: (1) CoFE, based on the co-occurrence of words; and (2) DREx, which relies on word vectors. We also propose Vec2Graph, a graph-based representation for corpora induced by word vectors, and VGTM, a probabilistic short text topic model that works on the top of Vec2Graph. Comparative experiments with state of the art baselines show significant improvements both in NPMI and F1-score.
Abstract
Textos curtos estão em todo lugar na Web, incluindo mídias sociais, sites de perguntas e respostas (Q&A), textos de propagandas e um número cada vez maior de outras aplicações. Eles são caracterizados pelo escasso contexto de palavras e extenso vocabulário. Estas características tornam a descoberta de conhecimento em texto curto desafiadora, motivando o desenvolvimento de novos métodos. Técnicas de mineração de texto são dependentes da forma como textos são representados. A necessidade de entradas de tamanho fixo para a maioria dos algortimos de aprendizado de máquina exige representações vetoriais, tais como as representações clássicas TF e TF-IDF. Contudo, estas representações são esparsas e podem induzir a "maldição da dimensionalidade". No nível de palavras, modelos de vetores de palavras, tais como Skip-Gram e GloVe, produzem embeddings que são sensíveis a semântica e consistentes com álgebra de vetores. Este trabalho apresenta contribuições em representação de texto curto para classificação de documentos e modelagem de tópicos para texto curto. Na primeira linha, uma investação sobre combinações apropriadas de vetores de palavras para geração de vetores de documentos é realizada. Estratégias variam de simples combinações até o método PSO-WAWV, baseado na meta-heurística PSO. Resultados em classificação de documentos são competitivos com TF-IDF e revelam ganhos significativos sobre outros métodos. Na segunda linha de pesquisa, um arcabouço que cria pseudodocumentos para modelagem de tópicos é proposto, além de duas implementações: (1) CoFE, baseado na co-ocorrência de palavras; e (2) DREx, que usa vetores de palavras. Também são propostos o modelo Vec2Graph, que induz um grafo de similaridade de vetores de palavras, e o algoritmo VGTM, um modelo de tópicos probabilístico para texto curto que funciona sobre Vec2Graph. Resultados experimentais mostram ganhos significativos em NPMI e F1-score quando comparados com métodos estado-da-arte.
Assunto
Computação – Teses, Modelagem de tópicos – Teses, Representação de textos - Teses, Processamento de linguagem natural (Computação) – Teses, Aprendizado de máquina – Teses
Palavras-chave
Short text topic modeling, Short text representation, Word vectors
Citação
Departamento
Endereço externo
Avaliação
Revisão
Suplementado Por
Referenciado Por
Licença Creative Commons
Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso Aberto
