Boosted lazy associative classifier

Carregando...
Imagem de Miniatura

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Minas Gerais

Descrição

Tipo

Dissertação de mestrado

Título alternativo

Primeiro orientador

Membros da banca

Adriano Alonso Veloso
Wagner Meira Junior

Resumo

Aprendizado de Máquina é uma subárea de Mineração de Dados que busca maneiras de conferir às máquinas a habilidade de aprender a partir de conjuntos de dados sem que estas sejam explicitamente programadas para tal tarefa. A máquina, então, deve ser capaz de extrair e generalizar informações de dados, e, posteriormente, usar estas informações para compreender dados nunca observados. Algoritmos de classificação associativa extraem padrões frequentes existentes em conjuntos pre-classificados de dados transformando-os em regras capazes de predizer a classe de instâncias dos dados. As regras são humanamente inteligíveis, o que as tornam atrativas em casos onde é necessário entender ou explicar como o algoritmo chegou à cada predição de classe. Frequentemente, algoritmos classificação associativa sofrem com problemas de processamento, dado o número padrões existentes nos dados. O Lazy Associative Classifier (LAC) supera essa adversidade decompondo o problema de procurar por todos os padrões em vários subproblemas menores. Contudo o LAC utiliza indiscriminadamente todas as regras que consegue formar. Isto pode levar à perda de acurácia e de interpretabilidade das classificações do algoritmo. Neste trabalho, revisamos o processo do LAC e propomos o BLACk: um algoritmo de classificação associativa que utiliza boosting para montar um modelo aditivo com os mesmos padrões encontrados pelo LAC e que melhora a acurácia e a legibilidade do classificador. Foi possível comprovar estatisticamente que o BLACk é mais preciso que o LAC e que o número de regras do BLACk é algumas ordens de grandeza menor que o número de regras do LAC, o que o torna mais humanamente inteligível que o LAC.

Abstract

Lazy machine learning algorithms have to learn every time it is been given a new example, however knowing which example is being classified gives them the advantage of adjusting their knowledge search accordingly. The Lazy Associative Classifier (LAC) is a rule-based demand-driven lazy machine learning algorithm that takes advantage of the information present in the example being classified by focusing its effort on inducing only rules that cover that particular example. Each rule comes from a frequent pattern present in the data. While, associative classifiers, in general, suffer from searching frequent patterns among the large number of existing patterns within the data, LAC breaks that problem down into many subproblems, solving one small problem at a time. Rule-based algorithms are often caught in the dilemma of not knowing the best way to combine their rules in order to form the best possible classifier. Usually, the choosing of a rule metric followed by a simple voting is used (as simple as assigning an importance -- or weight -- of one to each rule and averaging the accounts by each class). This approach is easily proven to be frail. Furthermore, LAC uses all rules available, which can be considered a large quantity of rules, regardless of their prediction quality. In this work we use a boosting algorithm known as Confidence-Rated Adaboost in conjunction with LAC to form a new, more accurate and smaller (in number of rules present in each model) classifier algorithm called BLACk. We prove that our approach is superior in terms of accuracy to LAC and other associative classifier. Nevertheless, we show that the built classifiers model are less complex compared to those built by LAC.

Assunto

Lazy associative classifier, Mineração de dados Computação, Computação, Boosting, Aprendizado do computador

Palavras-chave

Classificação Associativa, Aprendizado de Máquinas, Algoritmo lazy, Boosting

Citação

Departamento

Curso

Endereço externo

Avaliação

Revisão

Suplementado Por

Referenciado Por