Aprendizagem eficiente de classificadores sequenciais em padrões longos

Gesse Silva Ferreira de Dafe

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/ESBF-97CJGD

Type:	Dissertação de Mestrado
Title:	Aprendizagem eficiente de classificadores sequenciais em padrões longos
Authors:	Gesse Silva Ferreira de Dafe
First Advisor:	Adriano Alonso Veloso
First Referee:	Wagner Meira Junior
Second Referee:	Nivio Ziviani
Third Referee:	Mohammed Javeed Zaki
Abstract:	Muitas aplicações, tais como extração de informação, detecção de intrusão e reconhecimento de enovelamento de proteínas, podem ser expressas como uma sequência de eventos (ao invés de um conjunto não-ordenado de atributos), ou seja, existe uma relação de ordem entre os elementos que compõem cada instância presente nos dados. Essas aplicações podem ser modeladas como problemas de classificação e,nesse caso, o classificador precisa ser construído de forma a ser capaz de capturar tais relações e usá-las como fonte de informação. As principais abordagens para esse problema incluem: (i) a aprendizagem de Modelos Ocultos de Markov, (ii) a exploracão de sequências frequentes extraídas dos dados e (iii) o cálculo de string kernels para Máquinas de Vetores de Suporte (SVMs). Essas abordagens, entretanto, são computacionalmente difíceis e a alta dimensionalidade, típica dos dados sequenciais, representa sérios desafios à viabilidade de tais métodos, em especial se os dados possuem dependências longas (i.e., padrões longos são necessários para modelar os dados). Neste trabalho apresentamos algorítmos que geram classificadores sequenciais de alta eficiência através da exploração dos conceitos de adjacência ou proximidade entre os elementos de uma sequência, a fim de aprimorar a acurácia ou garantir, juntamente com a limitação dinâmica dos tamanhos das sequências enumeradas, um custo de aprendizagem de O(nn), onde n é a dimensão (número de atributos) da instância a ser classificada. Nossos algorítmos baseiam-se na enumeração sob demanda de padrões (aproximadamente) contíguos presentes nos dados de treino, usando um método flexível e leve de casamento de padrões e uma estratégia inovadora de enumeração que chamamos desilhuetas de padrões, que fazem com que nossos classificadores sejam rápidos porém robustos mesmo em dados ruidosos. Nossos resultados empíricos, obtidos sobre conjuntos de dados reais, mostram que, na maioria dos casos, nossos calssificadores são mais rápidos que as soluções existentes (em alguns casos, ordens de grandeza mais rápidos) e proporcionam ganhos significativos de acurácia.
Abstract:	Many applications, such as information extraction, intrusion detection and protein fold recognition, can be expressed as sequences of events or elements (rather than unordered sets of features), that is, there is an order dependence among the elements composing each data instance. These applications may be modeled as classification problems, and in this case the classifier must be built using sequential interactions among the elements, so that the ordering relationship among them is properly captured. Dominant approaches to this problem include: (i) learning Hidden Markov Models, (ii) exploiting frequent sequences extracted from the data and (iii) computing string kernels for Support Vector Machines. Such approaches, however, are computationally hard, and the typically high-dimensional nature of sequential data poses serious challenges to their feasibility, especially if the data shows long range dependencies (i.e., long patterns are necessary in order to model the data). In this paper we introduce algorithms that build highly effective sequential classifiers by exploiting adjacency or proximity information, either to improve classification accuracy or to ensure O(nn) learning cost, where n is the dimension (number of features) comprising a given test instance. Our algorithms are based on enumerating (approximately) contiguous sequences from the training data on a demand-driven basis, exploiting a lightweight and flexible sequence matching function and an innovative sequence enumeration strategy called pattern silhouettes, which make our classifiers fast but also robust even in noisy data. Our empirical results on actual datasets show that, in most of the cases, our classifiers are faster than existing solutions (sometimes orders of magnitude faster), also providing significant accuracy improvements in most of the evaluated cases.
Subject:	Computação Mineração de dados (Computação)
language:	Português
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
Rights:	Acesso Aberto
URI:	http://hdl.handle.net/1843/ESBF-97CJGD
Issue Date:	7-Jan-2013
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
gess_daf_.pdf		1.62 MB	Adobe PDF	View/Open

Show full item record