PTFS - Previsão e Tratamento de Falhas em modelos de Stacking

Welton Augusto Rodrigues Santos

PTFS - Previsão e Tratamento de Falhas em modelos de Stacking

Arquivos

Dissertação.pdf (778.44 KB)

Data

2024-06-03

Autor(es)

Welton Augusto Rodrigues Santos

Editor

Universidade Federal de Minas Gerais

Tipo

Dissertação de mestrado

Primeiro orientador

Marcos André Gonçalvez

Membros da banca

Sérgio Daniel Carvalho Canuto
Thierson Couto Rosa

Resumo

Modelos de empilhamento (stacking) são amplamente utilizados em Classificação Automática de Documentos (CAD). Empilhamento combina diferentes classificadores (modelos base) através de um meta-classificador que explora as diferentes habilidades e complementaridades dos modelos base para alavancar a efetividade na classificação. Porém, em abordagens tradicionais de stacking, o meta-classificador é limitado a aprender apenas uma única combinação de modelos base para todas instâncias em uma base de dados. Esta limitação prejudica o desempenho do stacking pois, quando um modelo base falha (ou possui uma alta chance de falhar) em classificar corretamente um documento (teste), sua importância para decisão final do meta classificador deveria ser reduzida. Isso porém não ocorre nas soluções correntes. Neste trabalho, nos concentramos em tratar essa limitação do meta-classificador em lidar com potenciais falhas de modelos base. Mais especificamente, estamos interessados em desenvolver estratégias para auxiliar o meta-classificador a ajustar a importância dos modelos base de acordo com a expectativa de sucesso de cada modelo para para cada documento em específico. Nosso trabalho busca responder questões de pesquisa tais como: (i) É possível atingir o máximo do potencial do stacking prevendo e tratando falhas dos modelos base? (ii) É possível encontrar o modelo base mais adequado para classificar um documento em específico? Para responder tais perguntas, apresentamos o arcabouço Previsão e Tratamento de falhas em modelos de Stacking (PTFS). Nosso arcabouço comporta três estratégias (Error Detection, Best Model e Hard Docs) voltadas para identificar e tratar falhas dos modelos base, potencialmente reduzindo o impacto dos insucessos desses modelos no desempenho do final do meta-classificador e do stacking no geral. Apresentamos uma ampla avaliação das estratégias contidas no PTFS utilizando múltiplas bases de dados e com diversos classificadores (modelos) base. Apesar das respostas negativas para várias das perguntas de pesquisa, nosso estudo contribui com interessantes percepções e análises que podem guiar trabalhos futuros.

Abstract

Stacking models are widely used in Automatic Text Classification (ATC). Stacking combines different classifiers (base models) through a meta-classifier that exploits the different abilities and complementarities of the base models to leverage effectiveness in classification. However, in traditional stacking approaches, the meta-classifier is limited to learning only a single combination of base models for all instances in a database. This limitation hampers the performance of stacking because, when a base model fails (or has a high chance of failing) to correctly classify a document (test), its importance for the final decision of the meta-classifier should be reduced. However, this does not occur in current solutions. In this work, we focus on addressing this limitation of the meta-classifier in dealing with potential failures of base models. More specifically, we are interested in developing strategies to assist the meta-classifier in adjusting the importance of the base models according to the expected success of each model for each specific document. Our work aims to answer research questions such as: (i) Is it possible to achieve the maximum potential of stacking by predicting and addressing failures of base models? (ii) Is it possible to find the most suitable base model to classify a specific document? To answer such questions, we present framework Prediction and Treatment of failures in Stacking models (PTFS). Our framework encompasses three strategies (Error Detection, Best Model, and Hard Docs) aimed at identifying and addressing failures of base models, potentially reducing the impact of these models' failures on the performance of the final meta-classifier and stacking overall. We present a comprehensive evaluation of the strategies contained in PTFS using multiple databases and various base classifiers (models). Despite negative answers to several research questions, our study provides interesting insights and analyses that can guide future work.

Assunto

Computação – Teses, Aprendizado do computador – Teses, Processamento de linguagem natural (Computação) – Teses, Classificação (Computadores) – Teses

Palavras-chave

Processamento Natural de Linguagem, Stacking, Tratamento de Falhas, Seleção Dinâmica em Ensembles.

URI

https://hdl.handle.net/1843/1266

Departamento

ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO

Curso

Programa de Pós-Graduação em Ciência da Computação

Coleções

Pós-Graduação em Ciência da Computação - Dissertações

Página do item completo

PTFS - Previsão e Tratamento de Falhas em modelos de Stacking

Arquivos

Data

Autor(es)

Título da Revista

ISSN da Revista

Título de Volume

Editor

Descrição

Tipo

Título alternativo

Primeiro orientador

Membros da banca

Resumo

Abstract

Assunto

Palavras-chave

Citação

URI

Departamento

Curso

Endereço externo

Coleções

Avaliação

Revisão

Suplementado Por

Referenciado Por