Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/SLSS-7WCQEY
Type: Tese de Doutorado
Title: Uso de contextos temporais para classificação de documentos
Authors: Leonardo Chaves Dutra da Rocha
First Advisor: Wagner Meira Junior
First Co-advisor: Marcos Andre Goncalves
First Referee: André Carlos Ponce de L.f. de Carvalho
Second Referee: Bianca Zadrozny
Third Referee: Alberto Henrique Frade Laender
metadata.dc.contributor.referee4: Nivio Ziviani
Abstract: Devido à crescente quantidade de informação que vem sendo armazenada e acessada por meio da Web, Classificação Automática de Documentos (CAD) tem se tornado um importante tópico de pesquisa. CAD normalmente segue uma estratégia de aprendizado em que primeiro se constrói um modelo de classificação utilizando documentos pré-classificados e então aplica-se esse modelo para classificar os demais documentos. Um dos maiores desafios em CAD é que as características dos documentos e das classes às quais eles pertencem mudam ao longo do tempo, uma vez que novos documentos são criados, novas informações surgem, novos termos também são introduzidos e, conseqüentemente, as definições das classes podem mudar. Apesar da potencial redução de qualidade dos modelos de classificação associado com as mudanças relacionadas ao tempo, a maioria das técnicas atuais de CAD não consideram a evolução temporal das coleções de documentos. Assim, conforme veremos nesse trabalho, um importante desafio é construir modelos de classificação que sejam capazes de lidar com essa evolução temporal.As duas principais hipóteses desta tese são: (1) a evolução temporal das coleções de documentos afeta significativamente o desempenho dos classificadores automáticos de texto e (2) as dimensões que compõem essa evolução temporal podem ser exploradas de forma a construir melhores classificadores, mais eficientes e mais efetivos. Dessa forma, o objetivo dessa tese é caracterizar, quantificar e qualificar, o impacto da evolução temporal das coleções de documentos sobre os classificadores automáticos de documentos, identificando as dimensões que compõem esse impacto. Além disso, utilizando o conhecimento adquirido com essa caracterização, o objetivo é propor alternativas para que os problemas causados pela evolução temporal das coleções nos classificadores automáticos de documentos sejam minimizados. As principais contribuições desta tese são: (1) demonstração da existência e quantificação do impacto da evolução temporal em classificação automática de documentos, (2) identificação das dimensões que compõem a evolução temporal, (3) qualificação e quantificação de cada uma das dimensões identificadas, (4) criação de um modelo de seleção de contextos do conjunto de treinamento que minimize os efeitos temporais e (5) a instanciação e validação do modelo utilizando diferentes coleções de documentos e algoritmos de classificação.
Abstract: Due to the increasing amount of information being stored and accessible throughthe Web, Automatic Document Classification (ADC) has become an important research topic. ADC usually employs a supervised learning strategy, where we first build a classification model using pre-classified documents and then use it to classify unseen documents. One major challenge for ADC in many scenarios is that the characteristics of the documents and the classes to which they belong may change over time, since new documents are created, new information rise, new terms also are introduced and, consequently, the class definitions may change. Despite the potential quality reduction in the classification models associated with temporal-related changes, most of the current techniques for ADC are applied without taking into account the temporal evolution of the collection of documents. As we will see in this work, an important challenge in building classifiers is to deal with this temporal evolution.The two main hypotheses of this dissertation are: (1) the temporal evolution of the document collections significantly affects the performance of automatic document classifiers, and (2) the dimensions that compose this temporal evolution can be taken into account in order to build better classifiers, which are more efficient and effective. Thus, the goal of this thesis is to characterize, quantitatively and qualitatively, the impact of the temporal evolution of document collections on automatic document classifiers, identifying the dimensions that compose this impact. Moreover, based on this characterization, the goal is to propose alternate strategies that can be used to minimize the challenges associated with the temporal evolution of the collections on automatic document classifiers.The main expected contributions of this thesis are: (1) demonstration and quantification of the temporal evolution and how this affects automatic document classifiers, (2) identification of the effect dimensions that compose the temporal evolution, (3) quantification and qualification of each dimension identified, (4) design of a model to select contexts of the training set that minimize the temporal effects, and (5) the validation of this model using different document collections and classification algorithms.
Subject: Recuperação da informação
Classificação
Computação
Sistemas de recuperação da informação
language: Português
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/SLSS-7WCQEY
Issue Date: 6-Feb-2009
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
leonardo_rocha.pdf1 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.