Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/76441
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Marcos André Gonçalvespt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/3457219624656691pt_BR
dc.contributor.advisor2Leonardo Chaves Dutra da Rochapt_BR
dc.contributor.advisor2Latteshttp://lattes.cnpq.br/8074447921818504pt_BR
dc.contributor.referee1Franco Maria Nardinipt_BR
dc.contributor.referee2Thierson Couto Rosapt_BR
dc.contributor.referee3Rodrygo Luis Teodoro Santospt_BR
dc.contributor.referee4Anisio Mendes Lacerdapt_BR
dc.creatorWashington Luiz Miranda da Cunhapt_BR
dc.creator.Latteshttp://lattes.cnpq.br/6927963916587716pt_BR
dc.date.accessioned2024-09-13T16:35:19Z-
dc.date.available2024-09-13T16:35:19Z-
dc.date.issued2024-08-26-
dc.identifier.urihttp://hdl.handle.net/1843/76441-
dc.description.abstractProgress in Natural Language Processing (NLP) has been dictated by the rule of more: more data, more computing power, more complexity, best exemplified by the {Large Language Models. However, training (or fine-tuning) large dense models for specific applications usually requires significant amounts of computing resources. Our focus here is an under-investigated data engineering (DE) technique, with enormous potential in the current scenario – Instance Selection (IS). The IS goal is to reduce the training set size by removing noisy or redundant instances while maintaining or improving the effectiveness (accuracy) of the trained models and reducing the training process cost. In this sense, the main contribution of this Ph.D. dissertation is twofold. Firstly, we survey classical and recent IS techniques and provide a scientifically sound comparison of IS methods applied to an essential NLP task - Automatic Text Classification (ATC). IS methods have been normally applied to small tabular datasets and have not been systematically compared in ATC. We consider several neural and non-neural SOTA ATC solutions and many datasets. We answer several research questions based on tradeoffs induced by a tripod: effectiveness, efficiency, reduction. Our answers reveal an enormous unfulfilled potential for IS solutions. Furthermore, in the case of fine-tuning the transformer methods, the IS methods reduce the amount of data needed, without losing effectiveness and with considerable training-time gains. Considering the issues revealed by the traditional IS approaches, the second main contribution is the proposal of two IS solutions: E2SC, a novel redundancy-oriented two-step framework aimed at large datasets with a particular focus on transformers. E2SC estimates the probability of each instance being removed from the training set based on scalable, fast, and calibrated weak classifiers. We hypothesize that it is possible to estimate the effectiveness of a strong classifier (Transformer) with a weaker one. However, as mentioned, E2SC focuses solely on the removal of redundant instances, leaving other aspects, such as noise, that may help to further reduce training, untouched. Therefore, we also propose biO-IS, an extended framework built upon our previous one aimed at simultaneously removing redundant and noisy instances from the training. biO-IS estimates redundancy based on E2SC and captures noise with the support of a new entropy-based step. We also propose a novel iterative process to estimate near-optimum reduction rates for both steps. Our final solution is able to reduce the training sets by 41% on average (up to 60%) while maintaining the effectiveness in all tested datasets, with speedup gains of 1.67 on average (up to 2.46x). No other baseline, was capable of scaling for datasets with hundreds of thousands of documents and achieving results with this level of quality, considering the tradeoff among training reduction, effectiveness, and speedup.pt_BR
dc.description.resumoProgresso em Processamento de Linguagem Natural (PNL) tem sido ditado pela regra de mais: mais dados, mais poder de computação, mais complexidade, exemplificado pelos Large Language Models. Contudo, o treinamento (ou fine-tuning) de modelos grandes e densos para aplicações específicas geralmente requer quantidades significativas de recursos de computação. Uma maneira de lidar com esse problema é por meio da engenharia de dados (ED), em vez das perspectivas algorítmicas ou de hardware. Nesse contexto, nosso foco aqui é em uma técnica de ED pouco investigada, porém com enorme potencial no cenário atual – Seleção de Instâncias (SI). O objetivo do SI é reduzir o tamanho do conjunto de treinamento removendo instâncias ruidosas ou redundantes enquanto mantém (ou melhora) a eficácia dos modelos treinados e reduz o custo do processo de treinamento. Nesse sentido, a principal contribuição desta tese é dupla. Primeiramente, examinamos técnicas clássicas e recentes de SI e fornecemos uma comparação cientificamente sólida aplicadas a uma tarefa essencial de PNL - Classificação Automática de Texto (CAT). Os métodos SI têm sido normalmente aplicados a pequenos conjuntos de dados tabulares e não foram sistematicamente comparados na tarefa de CAT. Consideramos várias soluções CAT de última geração neurais e não neurais aplicadas a diversos conjuntos de dados. Respondemos a várias questões de pesquisa com base no trade-off do um tripé: eficácia, eficiência, redução. Nossas respostas revelam um enorme potencial para soluções de SI. Além disso, no caso de ajuste-fino dos métodos transformers, os métodos SI reduzem a quantidade de dados necessários, sem perder a eficácia e com ganhos consideráveis de tempo de treinamento. Considerando as questões reveladas pelas abordagens tradicionais de SI, a segunda principal contribuição é a proposta de duas soluções de SI. E2SC, um framework orientado a redundância de duas etapas destinada a grandes conjuntos de dados com foco particular em transformers. O E2SC estima a probabilidade de cada instância ser removida do conjunto de treinamento com base em classificadores fracos escaláveis, rápidos e calibrados. Nossa hipótese é que é possível estimar a eficácia de um classificador forte (transformer) com um mais fraco. No entanto, como mencionado, o E2SC concentra-se apenas na remoção de instâncias redundantes, deixando outros aspectos intocados, como o ruído, que podem ajudar a reduzir ainda mais o treinamento. Portanto, também propomos o biO-IS, um framework estendido construído sobre o anterior, com o objetivo de remover simultaneamente instâncias redundantes e ruidosas do treinamento. O biOIS estima a redundância com base no E2SC e captura o ruído com o suporte de uma nova etapa baseada na entropia. Também propomos um novo processo iterativo para estimar taxas de redução quase ótimas para ambas as etapas. Nossa solução final é capaz de reduzir os conjuntos de treinamento em 41% em média (até 60%), mantendo a eficácia em todos os conjuntos de dados testados, com ganhos de aceleração de 1,67 em média (até 2,46x). Nenhuma outra linha de base foi capaz de escalar para conjuntos de dados com centenas de milhares de documentos e alcançar resultados com este nível de qualidade, considerando o compromisso entre redução, eficácia e aceleração do treinamento.pt_BR
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superiorpt_BR
dc.languageengpt_BR
dc.publisherUniversidade Federal de Minas Geraispt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃOpt_BR
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computaçãopt_BR
dc.publisher.initialsUFMGpt_BR
dc.relationPrograma Institucional de Internacionalização – CAPES - PrIntpt_BR
dc.rightsAcesso Abertopt_BR
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/pt/*
dc.subjectInstance Selectionpt_BR
dc.subjectAutomatic Text Classificationpt_BR
dc.subject.otherComputação – Tesespt_BR
dc.subject.otherAprendizado do computador – Tesespt_BR
dc.subject.otherClassificação (Computadores) – Tesespt_BR
dc.subject.otherProcessamento de linguagem natural – Tesespt_BR
dc.subject.otherSeleção de Instâncias – Tesespt_BR
dc.titleA comprehensive exploitation of instance selection methods for automatic text classificationpt_BR
dc.title.alternativeUma exploração abrangente de métodos de seleção de instâncias para classificação automática de textopt_BR
dc.typeTesept_BR
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
Tese_WashingtonCunha_PPGCC_DCC_UFMG_vfinal.pdf3.12 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons