Exploiting semantic similarity for improved text representation

dc.creatorVictor Silva Rodrigues
dc.date.accessioned2022-01-20T18:49:35Z
dc.date.accessioned2025-09-09T00:19:57Z
dc.date.available2022-01-20T18:49:35Z
dc.date.issued2018-08-24
dc.description.abstractA Classificação Automática de Documentos é uma técnica fundamental quando se trata da extração de informações úteis da grande e crescente quantidade de dados textuais produzidos diariamente na Internet e dentro das organizações. Recentemente, Vetores de Palavras (Word Embeddings, como por exemplo Word2Vec) foram propostos para representar termos como vetores cujas similaridades correspondem à proximidade semântica entre as palavras. Além disso, existem linhas de pesquisa cujo objetivo é compreender a utilização de Vetores de Palavras para melhorar a classificação textual. Entretanto, os resultados atuais dependem de muitos ajustes finos em suas parametrizações, e seus resultados nem sempre são consistentes quanto à superioridade em relação ao modelo tradicional de Saco-de-Palavras (Bag-of-Words). Como as palavras mais próximas em um modelo de Vetores de Palavras são semanticamente relacionadas, propomos um novo método de geração de atributos a partir de agrupamentos de palavras similares. Nós nos referimos a esses agrupamentos como “hyper-palavras” (hyperwords), uma vez que eles correspondem a novos conceitos semânticos, mais ricos do que as palavras simples. Nós propomos, ainda, uma adaptação ao modelo TF-IDF de assinalamento de pesos, criado especificamente para as hyper-palavras, que pode ser utilizado de forma similar àquela utilizada pelos termos originais, efetivamente substituindo as palavras na representação de documentos. Demonstramos que os atributos gerados a partir de hyper-palavras são significativamente mais discriminativos do que aqueles obtidos a partir de palavras simples. Também experimentamos uma combinação entre os atributos de hyper-palavras com os atributos derivados de uma técnica estado-da-arte de agregação de vetores de palavras, obtendo um método robusto. Experimentos amplos foram executados utilizando 24 bases de comparação em classificação de tópicos e de análise de sentimentos, comparando com métodos estado-da-arte em vetores de palavras, demonstrando a superioridade da nossa proposta em grandes margens, obtendo ganhos de até 18% em classificação de tópicos e 16% em classificação de sentimentos quando comparado ao modelo de Saco-de-Palavras.
dc.description.sponsorshipOutra Agência
dc.identifier.urihttps://hdl.handle.net/1843/39134
dc.languageeng
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.subjectComputação – Teses.
dc.subjectIndexação automática – Teses.
dc.subjectProcessamento da linguagem natural (Computação) – Teses
dc.subject.otherText classification
dc.subject.otherHyperwords
dc.subject.otherBag-of-Words
dc.subject.otherWord embeddings
dc.subject.otherClassificação automática de documentos
dc.subject.otherHyper-palavras
dc.subject.otherSaco-de-Palavras
dc.subject.otherVetores de palavras
dc.titleExploiting semantic similarity for improved text representation
dc.title.alternativeUtilizando similaridade semântica para aprimorar a representação de documentos textuais
dc.typeDissertação de mestrado
local.contributor.advisor1Marcos André Gonçalves
local.contributor.advisor1Latteshttp://lattes.cnpq.br/3457219624656691
local.contributor.referee1Gisele Lobo Pappa
local.contributor.referee1Mário Sérgio Ferreira Alvim Júnior
local.contributor.referee1Leonardo Chaves Dutra da Rocha
local.creator.Latteshttp://lattes.cnpq.br/7314598614070575
local.description.resumoAutomatic Document Classification is a key technique to help extracting useful information from the huge amount of textual data produced daily on the Web and inside organizations. Recently, Word Embeddings (e.g., Word2Vec) have been proposed for representing terms as vectors whose similarities should correlate with semantic relatedness. There has also been some research on how to use Word Embeddings to improve text classification. Nevertheless, current results depend on heavy and careful parameter tuning and still do not consistently outperform Bag-of-Words representation in a variety of scenarios. Since the nearest words of a given Word Embedding are all semantically related to each other, we propose a new method for generating features from clusters of similar Word Embeddings. We refer to these clusters as hyperwords, since they correspond to new semantic concepts, richer than simple words. We propose an adaptation of the TF-IDF weighting scheme for these new features so that they can be used similarly to the original terms, but substituting them. We demonstrate that features generated from hyperwords are significantly more discriminative than those obtained from simple words. We also experiment with the combination of the hyperwords-based representation with a state-of-art pooling technique, obtaining a very robust method. Extensive experiments performed using 24 benchmarks on topic classification and sentiment analysis against state-of-the-art baselines that exploit Word Embedding-based document representations show the superiority of our proposals by large margins, achieving gains up to 18% on topic classification datasets and 16% in sentiment classification datasets over the Bag-of-Words representation.
local.publisher.countryBrasil
local.publisher.departmentICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Ciência da Computação

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
ExploitingSemanticSimilarityForImprovedTextRepresentation.pdf
Tamanho:
2.5 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Plain Text
Descrição: