Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/SLSS-7WMHNG
Type: Dissertação de Mestrado
Title: Classificação multi-rótulo hierárquica de documentos textuais
Authors: Gustavo Henrique Orair
First Advisor: Wagner Meira Junior
First Co-advisor: Marcos Andre Goncalves
First Referee: Leonardo Chaves Dutra Rocha
Second Referee: Gisele Lobo Pappa
Abstract: A quantidade de informações armazenadas em bases de dados de documentos textuais aumenta cada vez mais. Esse crescimento demanda métodos automáticos para organização destes dados. Neste contexto, o estudo da classificação automática de textos tem merecido bastante atenção tanto no meio acadêmico quanto no mercado. A maioria dos trabalhos sobre a classificação estuda o desenvolvimento de técnicas de classificação de textos em que existem um número limitado de classes e a dependência entre as classes não é expressiva. Existem vários cenários de aplicação relevantes em que estas premissas não são válidas. Para solucionar tais problemas, um novo tópico de pesquisa, a Classificação Multi-rótulo Hierárquica (HMC) vem sendo continuamente estudado mas ainda representa um grande desafio para a área. Nos problemas de HMC, o conjunto de classes tende a ser muito maior e estas estão organizadas segundo uma estrutura hierárquica. Os métodos tradicionais, além de ignorar o conhecimento existente nesta estrutura, degeneram o desempenho tanto se o número de classes é expressivo quanto se existe interdependência entre estas classes. Neste trabalho realizamos um extensivo estudo da literatura, desenvolvemos um arcabouço, o MASSIFICA, para o desenvolvimento e análise de métodos e propomos um algoritmo baseado em regras de classificação postergada para o problema de HMC. O Massifica foi utilizado para a avaliação do desempenho do algoritmo proposto e de sistemas de classificação a partir de classificadores base tradicionais baseando-se tanto na arquitetura plana quanto na arquitetura top-down. Apresentamos os resultados em um cenário de aplicação importante de classificação de atividades econômicas de empresas. Por fim, realizamos uma discussão dos principais desafios e como as diferentes soluções resolvem ou falham na presença destes desafios. Concluímos que o novo algoritmo proposto, apesar de apresentar um desempenho inferior nos primeiros níveis da hierarquia, consegue um desempenho competitivo principalmente nos níveis mais profundos da hierarquia, em que, em geral, as classes são raras e existe menor quantidade de informação.
Abstract: The amount of information stored in text databases is steadily increasing. As such, demand for automated techniques to organize this data also continues to grow. In this context, academic and industry research has been focused on the study of automatic text classification. Most work on text classification studies the development of techniques in which there are a limited number of classes and dependencies between them is not significant. There are several relevant application scenarios in which these assumptions are not valid. To solve these problems, a new research topic, the Multi-label Hierarchical Classification (HMC) has received more attention but still represents a major challenge for the area. In HMC problems, the set of classes is likely to be much greater and, as such, they are hierarchically structured. Classic methods, in addition to ignore the existing structure knowledge, have their performance degradated if the number of classes is too large or interdependence between the classes exists. In this work we perform an extensive literature study, present a framework targeting development and analysis of HMC algorithms, the MASSIFICA, and propose a lazy classification rule-based algorithm suitable for HMC problems. MASSIFICA was used as benchmark to evaluate performance of a proposed algorithm against well known base classifers based on both fat architecture and structured database (topdown) architectures. We also present results applied to a real application scenario: classification of companies' economic activities. Finally, we discuss challenges and how diferent solutions react to these challenges. We conclude that the new algorithm, despite having a lower performance in the first hierarchical levels, can perform competitively, particularly in the deeper levels of the hierarchy, which in general classes are uncommon and less information is provided.
Subject: Computação
Mineração de dados (Computação)
Sistemas de recuperação da informação
language: Português
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/SLSS-7WMHNG
Issue Date: 29-Jul-2009
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
gustavohenriqueorair.pdf1.82 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.