Construção de evidências para classificação automática de textos

Fabio Soares Figueiredo

Use este identificador para citar ou linkar para este item: http://hdl.handle.net/1843/RVMR-7L3NSY

Tipo:	Dissertação de Mestrado
Título:	Construção de evidências para classificação automática de textos
Autor(es):	Fabio Soares Figueiredo
Primeiro Orientador:	Wagner Meira Junior
Primeiro Coorientador:	Marcos Andre Goncalves
Primeiro membro da banca :	André Carlos Ponce de Leon Ferreira de Carvalho
Segundo membro da banca:	Nivio Ziviani
Resumo:	Desde a popularização de documentos digitais, a classificação automática de textos é considerada um importante tópico de pesquisa. Apesar dos esforços na área, ainda há espaço para aperfeiçoar o desempenho de classificadores. A maior parte da pesquisa em classificação automática de texto foca em desenvolver algoritmos de classificação. Porém, não há muitos esforços concentrados em aperfeiçoar a representação das bases de dados usadas para treinar classificadores automáticos de texto. Este tipo de esforço, por sua vez, é o foco deste trabalho.Nós propomos uma estratégia de tratamento de dados, baseada em extração de características, que precede a tarefa de classificação, a fim de introduzir em documentos características discriminativas de cada classe capazes de melhorar a eficácia da classificação.Nossa estratégia é baseada em co-ocorrência de termos visando à geração de termos compostos discriminativos, chamados de c-termos, que podem ser incorporados aos documentos para facilitar a tarefa de classificação. A idéia é que, quando usados em conjuntos com os termos isolados, a ambigüidade e ruído inerente aos termos que compõem os c-termos é reduzida, portanto tornando-os mais úteis para separar classes em partições mais homogêneas.Contudo, o custo computacional da extração de características pode tornar o método inviável. Neste trabalho, elaboramos um conjunto de mecanismos que torna a estratégia computacionalmente viável ao mesmo tempo em que aperfeiçoamos a eficácia dos classificadores.Nós testamos essa abordagem com diversos algoritmos de classificação e coleções de texto que são referência na literatura. Resultados experimentais demonstram ganhos em quase todos os cenários testados, desde os algoritmos mais simples, como k-Nearest Neighbors (kNN) (46% de ganho em micro-média F1 sobre a coleção 20 Newsgroups 18828) até o algoritmo mais complexo, estado da arte, Support Vector Machine (SVM) (10,7% de ganho em macro-média F1 na coleção OHSUMED).
Abstract:	Since the popularization of digital documents, automatic text classification is considered an important research topic. Despite the research efforts, there is still a demand for improving the performance of classifiers. Most of the research in automatic text classification focus on the algorithmic side, but there are few efforts focused on enhancing the datasets used for training the automatic text classifiers, which is the focus of this paper. We propose a data treatment strategy, based on feature extraction, that precedes the classification task, in order to enhance documents with discriminative features of each class capable of increasing the classification effectiveness.Our strategy is based on term co-occurrences to generate new discriminative features, called compound-features (or c-features), that can be incorporated to documents to help the classification task. The idea is that, when used in conjunction with single-features, the ambiguity and noise inherent to c-features components are reduced, therefore making them more helpful to separate classes into more homogeneous partitions. However, the computational cost of feature extaction may make the method unfeasible. In this paper, we devise a set of mechanisms that make the strategy computationally feasible while improving the classifier effectiveness. We test this approach with several classification algorithms and standard text collections. Experimental results demonstrated gains in almost all evaluated scenarios, from the simplest algorithms such as k-Nearest Neighbors (kNN) (46% gain in micro average F1 in the 20 Newsgroups 18828 collection) to the most complex one, the state of the art Support Vector Machine (SVM) (10,7% gain in macro average F1 in the collection OHSUMED).
Assunto:	World Wide Web (Sistema de recuperação da informação) Classificação Computação Processamento da linguagem natural (Computação)
Idioma:	Português
Editor:	Universidade Federal de Minas Gerais
Sigla da Instituição:	UFMG
Tipo de Acesso:	Acesso Aberto
URI:	http://hdl.handle.net/1843/RVMR-7L3NSY
Data do documento:	11-Abr-2008
Aparece nas coleções:	Dissertações de Mestrado

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
dissertacaofab.pdf		1.75 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas