Please use this identifier to cite or link to this item:
http://hdl.handle.net/1843/33474
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor1 | Marcos André Gonçalves | pt_BR |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/3457219624656691 | pt_BR |
dc.contributor.advisor2 | Leonardo Chaves Dutra da Rocha | pt_BR |
dc.contributor.advisor2Lattes | http://lattes.cnpq.br/8074447921818504 | pt_BR |
dc.contributor.referee1 | Jussara Marques de Almeida Gonçalves | pt_BR |
dc.contributor.referee2 | Anisio Mendes Lacerda | pt_BR |
dc.creator | Washington Luiz Miranda da Cunha | pt_BR |
dc.creator.Lattes | http://lattes.cnpq.br/6927963916587716 | pt_BR |
dc.date.accessioned | 2020-05-15T17:50:19Z | - |
dc.date.available | 2020-05-15T17:50:19Z | - |
dc.date.issued | 2019-11-08 | - |
dc.identifier.uri | http://hdl.handle.net/1843/33474 | - |
dc.description.abstract | Pipelines de classificação de texto são uma sequência de tarefas que devem ser executadas para classificar documentos em um conjunto de categorias predefinidas. A fase de pré-processamento (antes do treinamento) desses pipelines envolve diferentes maneiras de transformar e manipular os documentos para a próxima fase (aprendizado). Nesta dissertação, apresentamos três novas etapas na fase de pré-processamento dos pipelines de classificação de texto para melhorar a eficácia e reduzir os custos associados. A etapa de geração de meta-features (MFs) baseadas em distância visa reduzir a dimensionalidade da matriz termo-documento original, enquanto produz um espaço potencialmente mais informativo, o qual explora explicitamente as informações discriminativas sobre as categorias. O segundo passo é a esparsificação que visa tornar a representação do MF menos densa para reduzir os custos de treinamento. A terceira etapa é a amostragem seletiva (SS), destinada a remover linhas (documentos) da matriz obtida na etapa anterior, selecionando cuidadosamente os “melhores” documentos para a fase de aprendizado. Nossos experimentos mostram que o pipeline de pré-processamento estendido proposto pode obter ganhos significativos em eficácia quando comparado ao TF-IDF original (até 52 %) e às representações baseadas em embeddings (até 46 %), a um custo muito menor (até 9,7x mais rápido em alguns conjuntos de dados). Outra contribuição principal é uma avaliação completa e rigorosa do trade-off entre custo e eficácia associadas à introdução dessas novas etapas no pipeline. | pt_BR |
dc.description.resumo | Text Classification pipelines are a sequence of tasks needed to be performed to classify documents into a set of predefined categories. The pre-processing phase (before training) of these pipelines involve different ways of transforming and manipulating the documents for the next (learning) phase. In this dissertation, we introduce three new steps into the pre-processing phase of text classification pipelines to improve effectiveness while reducing the associated costs. The distance-based Meta-Features (MFs) generation step aims at reducing the dimensionality of the original term-document matrix while producing a potentially more informative space that explicitly exploits discriminative labeled information. The second step is a sparsification one aimed at making the MF representation less dense to reduce training costs. The third step is a selective sampling (SS) aimed at removing lines (documents) of the matrix obtained in the previous step, by carefully selecting the “best” documents for the learning phase. Our experiments show that the proposed extended pre-processing pipeline can achieve significant gains in effectiveness when compared to the original TF-IDF (up to 52%) and embedding-based representations (up to 46%), at a much lower cost (up to 9.7x faster in some datasets). Another main contribution is a thorough and rigorous evaluation of the trade-offs between cost and effectiveness associated with the introduction of these new steps into the pipeline. | pt_BR |
dc.description.sponsorship | CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior | pt_BR |
dc.language | eng | pt_BR |
dc.publisher | Universidade Federal de Minas Gerais | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.department | ICEX - INSTITUTO DE CIÊNCIAS EXATAS | pt_BR |
dc.publisher.program | Programa de Pós-Graduação em Ciência da Computação | pt_BR |
dc.publisher.initials | UFMG | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.subject | Text classification pipelines | pt_BR |
dc.subject | Pre-processing | pt_BR |
dc.subject | Meta-features | pt_BR |
dc.subject | Sparsification | pt_BR |
dc.subject | Selective sampling | pt_BR |
dc.subject.other | Computação - Teses | pt_BR |
dc.subject.other | Aprendizado de máquina - Teses | pt_BR |
dc.subject.other | Pipelines de classificação de texto - Teses | pt_BR |
dc.subject.other | Pré-processamento de dados - Teses | pt_BR |
dc.title | Extended pre-processing pipeline for text classification: on the role of meta-features, sparsification and selective sampling | pt_BR |
dc.type | Dissertação | pt_BR |
Appears in Collections: | Dissertações de Mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
dissertacao_washingtonCunha_vfinal.pdf | 1.64 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.