PTFS - Previsão e Tratamento de Falhas em modelos de Stacking

Welton Augusto Rodrigues Santos

PTFS - Previsão e Tratamento de Falhas em modelos de Stacking

dc.creator	Welton Augusto Rodrigues Santos
dc.date.accessioned	2025-12-31T02:16:45Z
dc.date.issued	2024-06-03
dc.description.abstract	Stacking models are widely used in Automatic Text Classification (ATC). Stacking combines different classifiers (base models) through a meta-classifier that exploits the different abilities and complementarities of the base models to leverage effectiveness in classification. However, in traditional stacking approaches, the meta-classifier is limited to learning only a single combination of base models for all instances in a database. This limitation hampers the performance of stacking because, when a base model fails (or has a high chance of failing) to correctly classify a document (test), its importance for the final decision of the meta-classifier should be reduced. However, this does not occur in current solutions. In this work, we focus on addressing this limitation of the meta-classifier in dealing with potential failures of base models. More specifically, we are interested in developing strategies to assist the meta-classifier in adjusting the importance of the base models according to the expected success of each model for each specific document. Our work aims to answer research questions such as: (i) Is it possible to achieve the maximum potential of stacking by predicting and addressing failures of base models? (ii) Is it possible to find the most suitable base model to classify a specific document? To answer such questions, we present framework Prediction and Treatment of failures in Stacking models (PTFS). Our framework encompasses three strategies (Error Detection, Best Model, and Hard Docs) aimed at identifying and addressing failures of base models, potentially reducing the impact of these models' failures on the performance of the final meta-classifier and stacking overall. We present a comprehensive evaluation of the strategies contained in PTFS using multiple databases and various base classifiers (models). Despite negative answers to several research questions, our study provides interesting insights and analyses that can guide future work.
dc.description.sponsorship	FAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas Gerais
dc.description.sponsorship	CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico
dc.description.sponsorship	FINEP - Financiadora de Estudos e Projetos, Financiadora de Estudos e Projetos
dc.identifier.uri	https://hdl.handle.net/1843/1266
dc.language	por
dc.publisher	Universidade Federal de Minas Gerais
dc.rights	Acesso aberto
dc.subject	Computação – Teses
dc.subject	Aprendizado do computador – Teses
dc.subject	Processamento de linguagem natural (Computação) – Teses
dc.subject	Classificação (Computadores) – Teses
dc.subject.other	Processamento Natural de Linguagem
dc.subject.other	Stacking
dc.subject.other	Tratamento de Falhas
dc.subject.other	Seleção Dinâmica em Ensembles.
dc.title	PTFS - Previsão e Tratamento de Falhas em modelos de Stacking
dc.type	Dissertação de mestrado
local.contributor.advisor-co1	Leonardo Chaves Dutra da Rocha
local.contributor.advisor-co1Lattes	http://lattes.cnpq.br/8074447921818504
local.contributor.advisor1	Marcos André Gonçalvez
local.contributor.advisor1Lattes	http://lattes.cnpq.br/3457219624656691
local.contributor.referee1	Sérgio Daniel Carvalho Canuto
local.contributor.referee1	Thierson Couto Rosa
local.creator.Lattes	https://lattes.cnpq.br/4202804759214206
local.description.resumo	Modelos de empilhamento (stacking) são amplamente utilizados em Classificação Automática de Documentos (CAD). Empilhamento combina diferentes classificadores (modelos base) através de um meta-classificador que explora as diferentes habilidades e complementaridades dos modelos base para alavancar a efetividade na classificação. Porém, em abordagens tradicionais de stacking, o meta-classificador é limitado a aprender apenas uma única combinação de modelos base para todas instâncias em uma base de dados. Esta limitação prejudica o desempenho do stacking pois, quando um modelo base falha (ou possui uma alta chance de falhar) em classificar corretamente um documento (teste), sua importância para decisão final do meta classificador deveria ser reduzida. Isso porém não ocorre nas soluções correntes. Neste trabalho, nos concentramos em tratar essa limitação do meta-classificador em lidar com potenciais falhas de modelos base. Mais especificamente, estamos interessados em desenvolver estratégias para auxiliar o meta-classificador a ajustar a importância dos modelos base de acordo com a expectativa de sucesso de cada modelo para para cada documento em específico. Nosso trabalho busca responder questões de pesquisa tais como: (i) É possível atingir o máximo do potencial do stacking prevendo e tratando falhas dos modelos base? (ii) É possível encontrar o modelo base mais adequado para classificar um documento em específico? Para responder tais perguntas, apresentamos o arcabouço Previsão e Tratamento de falhas em modelos de Stacking (PTFS). Nosso arcabouço comporta três estratégias (Error Detection, Best Model e Hard Docs) voltadas para identificar e tratar falhas dos modelos base, potencialmente reduzindo o impacto dos insucessos desses modelos no desempenho do final do meta-classificador e do stacking no geral. Apresentamos uma ampla avaliação das estratégias contidas no PTFS utilizando múltiplas bases de dados e com diversos classificadores (modelos) base. Apesar das respostas negativas para várias das perguntas de pesquisa, nosso estudo contribui com interessantes percepções e análises que podem guiar trabalhos futuros.
local.identifier.orcid	https://orcid.org/0000-0001-5673-0748
local.publisher.country	Brasil
local.publisher.department	ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initials	UFMG
local.publisher.program	Programa de Pós-Graduação em Ciência da Computação
local.subject.cnpq	CIENCIAS EXATAS E DA TERRA

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: Dissertação.pdf
Tamanho:: 778.44 KB
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.07 KB
Formato:: Item-specific license agreed to upon submission
Descrição:

Baixar

Coleções

Pós-Graduação em Ciência da Computação - Dissertações