PTFS - Previsão e Tratamento de Falhas em modelos de Stacking

dc.creatorWelton Augusto Rodrigues Santos
dc.date.accessioned2025-12-31T02:16:45Z
dc.date.issued2024-06-03
dc.description.abstractStacking models are widely used in Automatic Text Classification (ATC). Stacking combines different classifiers (base models) through a meta-classifier that exploits the different abilities and complementarities of the base models to leverage effectiveness in classification. However, in traditional stacking approaches, the meta-classifier is limited to learning only a single combination of base models for all instances in a database. This limitation hampers the performance of stacking because, when a base model fails (or has a high chance of failing) to correctly classify a document (test), its importance for the final decision of the meta-classifier should be reduced. However, this does not occur in current solutions. In this work, we focus on addressing this limitation of the meta-classifier in dealing with potential failures of base models. More specifically, we are interested in developing strategies to assist the meta-classifier in adjusting the importance of the base models according to the expected success of each model for each specific document. Our work aims to answer research questions such as: (i) Is it possible to achieve the maximum potential of stacking by predicting and addressing failures of base models? (ii) Is it possible to find the most suitable base model to classify a specific document? To answer such questions, we present framework Prediction and Treatment of failures in Stacking models (PTFS). Our framework encompasses three strategies (Error Detection, Best Model, and Hard Docs) aimed at identifying and addressing failures of base models, potentially reducing the impact of these models' failures on the performance of the final meta-classifier and stacking overall. We present a comprehensive evaluation of the strategies contained in PTFS using multiple databases and various base classifiers (models). Despite negative answers to several research questions, our study provides interesting insights and analyses that can guide future work.
dc.description.sponsorshipFAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas Gerais
dc.description.sponsorshipCNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico
dc.description.sponsorshipFINEP - Financiadora de Estudos e Projetos, Financiadora de Estudos e Projetos
dc.identifier.urihttps://hdl.handle.net/1843/1266
dc.languagepor
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso aberto
dc.subjectComputação – Teses
dc.subjectAprendizado do computador – Teses
dc.subjectProcessamento de linguagem natural (Computação) – Teses
dc.subjectClassificação (Computadores) – Teses
dc.subject.otherProcessamento Natural de Linguagem
dc.subject.otherStacking
dc.subject.otherTratamento de Falhas
dc.subject.otherSeleção Dinâmica em Ensembles.
dc.titlePTFS - Previsão e Tratamento de Falhas em modelos de Stacking
dc.typeDissertação de mestrado
local.contributor.advisor-co1Leonardo Chaves Dutra da Rocha
local.contributor.advisor-co1Latteshttp://lattes.cnpq.br/8074447921818504
local.contributor.advisor1Marcos André Gonçalvez
local.contributor.advisor1Latteshttp://lattes.cnpq.br/3457219624656691
local.contributor.referee1Sérgio Daniel Carvalho Canuto
local.contributor.referee1Thierson Couto Rosa
local.creator.Latteshttps://lattes.cnpq.br/4202804759214206
local.description.resumoModelos de empilhamento (stacking) são amplamente utilizados em Classificação Automática de Documentos (CAD). Empilhamento combina diferentes classificadores (modelos base) através de um meta-classificador que explora as diferentes habilidades e complementaridades dos modelos base para alavancar a efetividade na classificação. Porém, em abordagens tradicionais de stacking, o meta-classificador é limitado a aprender apenas uma única combinação de modelos base para todas instâncias em uma base de dados. Esta limitação prejudica o desempenho do stacking pois, quando um modelo base falha (ou possui uma alta chance de falhar) em classificar corretamente um documento (teste), sua importância para decisão final do meta classificador deveria ser reduzida. Isso porém não ocorre nas soluções correntes. Neste trabalho, nos concentramos em tratar essa limitação do meta-classificador em lidar com potenciais falhas de modelos base. Mais especificamente, estamos interessados em desenvolver estratégias para auxiliar o meta-classificador a ajustar a importância dos modelos base de acordo com a expectativa de sucesso de cada modelo para para cada documento em específico. Nosso trabalho busca responder questões de pesquisa tais como: (i) É possível atingir o máximo do potencial do stacking prevendo e tratando falhas dos modelos base? (ii) É possível encontrar o modelo base mais adequado para classificar um documento em específico? Para responder tais perguntas, apresentamos o arcabouço Previsão e Tratamento de falhas em modelos de Stacking (PTFS). Nosso arcabouço comporta três estratégias (Error Detection, Best Model e Hard Docs) voltadas para identificar e tratar falhas dos modelos base, potencialmente reduzindo o impacto dos insucessos desses modelos no desempenho do final do meta-classificador e do stacking no geral. Apresentamos uma ampla avaliação das estratégias contidas no PTFS utilizando múltiplas bases de dados e com diversos classificadores (modelos) base. Apesar das respostas negativas para várias das perguntas de pesquisa, nosso estudo contribui com interessantes percepções e análises que podem guiar trabalhos futuros.
local.identifier.orcidhttps://orcid.org/0000-0001-5673-0748
local.publisher.countryBrasil
local.publisher.departmentICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Ciência da Computação
local.subject.cnpqCIENCIAS EXATAS E DA TERRA

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Dissertação.pdf
Tamanho:
778.44 KB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Item-specific license agreed to upon submission
Descrição: