Use este identificador para citar o ir al link de este elemento: http://hdl.handle.net/1843/76441
Tipo: Tese
Título: A comprehensive exploitation of instance selection methods for automatic text classification
Título(s) alternativo(s): Uma exploração abrangente de métodos de seleção de instâncias para classificação automática de texto
Autor(es): Washington Luiz Miranda da Cunha
primer Tutor: Marcos André Gonçalves
Segundo Tutor: Leonardo Chaves Dutra da Rocha
primer miembro del tribunal : Franco Maria Nardini
Segundo miembro del tribunal: Thierson Couto Rosa
Tercer miembro del tribunal: Rodrygo Luis Teodoro Santos
Cuarto miembro del tribunal: Anisio Mendes Lacerda
Resumen: Progresso em Processamento de Linguagem Natural (PNL) tem sido ditado pela regra de mais: mais dados, mais poder de computação, mais complexidade, exemplificado pelos Large Language Models. Contudo, o treinamento (ou fine-tuning) de modelos grandes e densos para aplicações específicas geralmente requer quantidades significativas de recursos de computação. Uma maneira de lidar com esse problema é por meio da engenharia de dados (ED), em vez das perspectivas algorítmicas ou de hardware. Nesse contexto, nosso foco aqui é em uma técnica de ED pouco investigada, porém com enorme potencial no cenário atual – Seleção de Instâncias (SI). O objetivo do SI é reduzir o tamanho do conjunto de treinamento removendo instâncias ruidosas ou redundantes enquanto mantém (ou melhora) a eficácia dos modelos treinados e reduz o custo do processo de treinamento. Nesse sentido, a principal contribuição desta tese é dupla. Primeiramente, examinamos técnicas clássicas e recentes de SI e fornecemos uma comparação cientificamente sólida aplicadas a uma tarefa essencial de PNL - Classificação Automática de Texto (CAT). Os métodos SI têm sido normalmente aplicados a pequenos conjuntos de dados tabulares e não foram sistematicamente comparados na tarefa de CAT. Consideramos várias soluções CAT de última geração neurais e não neurais aplicadas a diversos conjuntos de dados. Respondemos a várias questões de pesquisa com base no trade-off do um tripé: eficácia, eficiência, redução. Nossas respostas revelam um enorme potencial para soluções de SI. Além disso, no caso de ajuste-fino dos métodos transformers, os métodos SI reduzem a quantidade de dados necessários, sem perder a eficácia e com ganhos consideráveis de tempo de treinamento. Considerando as questões reveladas pelas abordagens tradicionais de SI, a segunda principal contribuição é a proposta de duas soluções de SI. E2SC, um framework orientado a redundância de duas etapas destinada a grandes conjuntos de dados com foco particular em transformers. O E2SC estima a probabilidade de cada instância ser removida do conjunto de treinamento com base em classificadores fracos escaláveis, rápidos e calibrados. Nossa hipótese é que é possível estimar a eficácia de um classificador forte (transformer) com um mais fraco. No entanto, como mencionado, o E2SC concentra-se apenas na remoção de instâncias redundantes, deixando outros aspectos intocados, como o ruído, que podem ajudar a reduzir ainda mais o treinamento. Portanto, também propomos o biO-IS, um framework estendido construído sobre o anterior, com o objetivo de remover simultaneamente instâncias redundantes e ruidosas do treinamento. O biOIS estima a redundância com base no E2SC e captura o ruído com o suporte de uma nova etapa baseada na entropia. Também propomos um novo processo iterativo para estimar taxas de redução quase ótimas para ambas as etapas. Nossa solução final é capaz de reduzir os conjuntos de treinamento em 41% em média (até 60%), mantendo a eficácia em todos os conjuntos de dados testados, com ganhos de aceleração de 1,67 em média (até 2,46x). Nenhuma outra linha de base foi capaz de escalar para conjuntos de dados com centenas de milhares de documentos e alcançar resultados com este nível de qualidade, considerando o compromisso entre redução, eficácia e aceleração do treinamento.
Abstract: Progress in Natural Language Processing (NLP) has been dictated by the rule of more: more data, more computing power, more complexity, best exemplified by the {Large Language Models. However, training (or fine-tuning) large dense models for specific applications usually requires significant amounts of computing resources. Our focus here is an under-investigated data engineering (DE) technique, with enormous potential in the current scenario – Instance Selection (IS). The IS goal is to reduce the training set size by removing noisy or redundant instances while maintaining or improving the effectiveness (accuracy) of the trained models and reducing the training process cost. In this sense, the main contribution of this Ph.D. dissertation is twofold. Firstly, we survey classical and recent IS techniques and provide a scientifically sound comparison of IS methods applied to an essential NLP task - Automatic Text Classification (ATC). IS methods have been normally applied to small tabular datasets and have not been systematically compared in ATC. We consider several neural and non-neural SOTA ATC solutions and many datasets. We answer several research questions based on tradeoffs induced by a tripod: effectiveness, efficiency, reduction. Our answers reveal an enormous unfulfilled potential for IS solutions. Furthermore, in the case of fine-tuning the transformer methods, the IS methods reduce the amount of data needed, without losing effectiveness and with considerable training-time gains. Considering the issues revealed by the traditional IS approaches, the second main contribution is the proposal of two IS solutions: E2SC, a novel redundancy-oriented two-step framework aimed at large datasets with a particular focus on transformers. E2SC estimates the probability of each instance being removed from the training set based on scalable, fast, and calibrated weak classifiers. We hypothesize that it is possible to estimate the effectiveness of a strong classifier (Transformer) with a weaker one. However, as mentioned, E2SC focuses solely on the removal of redundant instances, leaving other aspects, such as noise, that may help to further reduce training, untouched. Therefore, we also propose biO-IS, an extended framework built upon our previous one aimed at simultaneously removing redundant and noisy instances from the training. biO-IS estimates redundancy based on E2SC and captures noise with the support of a new entropy-based step. We also propose a novel iterative process to estimate near-optimum reduction rates for both steps. Our final solution is able to reduce the training sets by 41% on average (up to 60%) while maintaining the effectiveness in all tested datasets, with speedup gains of 1.67 on average (up to 2.46x). No other baseline, was capable of scaling for datasets with hundreds of thousands of documents and achieving results with this level of quality, considering the tradeoff among training reduction, effectiveness, and speedup.
Asunto: Computação – Teses
Aprendizado do computador – Teses
Classificação (Computadores) – Teses
Processamento de linguagem natural – Teses
Seleção de Instâncias – Teses
Idioma: eng
País: Brasil
Editor: Universidade Federal de Minas Gerais
Sigla da Institución: UFMG
Departamento: ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
Curso: Programa de Pós-Graduação em Ciência da Computação
Tipo de acceso: Acesso Aberto
metadata.dc.rights.uri: http://creativecommons.org/licenses/by/3.0/pt/
URI: http://hdl.handle.net/1843/76441
Fecha del documento: 26-ago-2024
Aparece en las colecciones:Teses de Doutorado

archivos asociados a este elemento:
archivo Descripción TamañoFormato 
Tese_WashingtonCunha_PPGCC_DCC_UFMG_vfinal.pdf3.12 MBAdobe PDFVisualizar/Abrir


Este elemento está licenciado bajo una Licencia Creative Commons Creative Commons