A comprehensive exploitation of instance selection methods for automatic text classification

Washington Luiz Miranda da Cunha

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/76441

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Marcos André Gonçalves	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/3457219624656691	pt_BR
dc.contributor.advisor2	Leonardo Chaves Dutra da Rocha	pt_BR
dc.contributor.advisor2Lattes	http://lattes.cnpq.br/8074447921818504	pt_BR
dc.contributor.referee1	Franco Maria Nardini	pt_BR
dc.contributor.referee2	Thierson Couto Rosa	pt_BR
dc.contributor.referee3	Rodrygo Luis Teodoro Santos	pt_BR
dc.contributor.referee4	Anisio Mendes Lacerda	pt_BR
dc.creator	Washington Luiz Miranda da Cunha	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/6927963916587716	pt_BR
dc.date.accessioned	2024-09-13T16:35:19Z	-
dc.date.available	2024-09-13T16:35:19Z	-
dc.date.issued	2024-08-26	-
dc.identifier.uri	http://hdl.handle.net/1843/76441	-
dc.description.abstract	Progress in Natural Language Processing (NLP) has been dictated by the rule of more: more data, more computing power, more complexity, best exemplified by the {Large Language Models. However, training (or fine-tuning) large dense models for specific applications usually requires significant amounts of computing resources. Our focus here is an under-investigated data engineering (DE) technique, with enormous potential in the current scenario – Instance Selection (IS). The IS goal is to reduce the training set size by removing noisy or redundant instances while maintaining or improving the effectiveness (accuracy) of the trained models and reducing the training process cost. In this sense, the main contribution of this Ph.D. dissertation is twofold. Firstly, we survey classical and recent IS techniques and provide a scientifically sound comparison of IS methods applied to an essential NLP task - Automatic Text Classification (ATC). IS methods have been normally applied to small tabular datasets and have not been systematically compared in ATC. We consider several neural and non-neural SOTA ATC solutions and many datasets. We answer several research questions based on tradeoffs induced by a tripod: effectiveness, efficiency, reduction. Our answers reveal an enormous unfulfilled potential for IS solutions. Furthermore, in the case of fine-tuning the transformer methods, the IS methods reduce the amount of data needed, without losing effectiveness and with considerable training-time gains. Considering the issues revealed by the traditional IS approaches, the second main contribution is the proposal of two IS solutions: E2SC, a novel redundancy-oriented two-step framework aimed at large datasets with a particular focus on transformers. E2SC estimates the probability of each instance being removed from the training set based on scalable, fast, and calibrated weak classifiers. We hypothesize that it is possible to estimate the effectiveness of a strong classifier (Transformer) with a weaker one. However, as mentioned, E2SC focuses solely on the removal of redundant instances, leaving other aspects, such as noise, that may help to further reduce training, untouched. Therefore, we also propose biO-IS, an extended framework built upon our previous one aimed at simultaneously removing redundant and noisy instances from the training. biO-IS estimates redundancy based on E2SC and captures noise with the support of a new entropy-based step. We also propose a novel iterative process to estimate near-optimum reduction rates for both steps. Our final solution is able to reduce the training sets by 41% on average (up to 60%) while maintaining the effectiveness in all tested datasets, with speedup gains of 1.67 on average (up to 2.46x). No other baseline, was capable of scaling for datasets with hundreds of thousands of documents and achieving results with this level of quality, considering the tradeoff among training reduction, effectiveness, and speedup.	pt_BR
dc.description.resumo	Progresso em Processamento de Linguagem Natural (PNL) tem sido ditado pela regra de mais: mais dados, mais poder de computação, mais complexidade, exemplificado pelos Large Language Models. Contudo, o treinamento (ou fine-tuning) de modelos grandes e densos para aplicações específicas geralmente requer quantidades significativas de recursos de computação. Uma maneira de lidar com esse problema é por meio da engenharia de dados (ED), em vez das perspectivas algorítmicas ou de hardware. Nesse contexto, nosso foco aqui é em uma técnica de ED pouco investigada, porém com enorme potencial no cenário atual – Seleção de Instâncias (SI). O objetivo do SI é reduzir o tamanho do conjunto de treinamento removendo instâncias ruidosas ou redundantes enquanto mantém (ou melhora) a eficácia dos modelos treinados e reduz o custo do processo de treinamento. Nesse sentido, a principal contribuição desta tese é dupla. Primeiramente, examinamos técnicas clássicas e recentes de SI e fornecemos uma comparação cientificamente sólida aplicadas a uma tarefa essencial de PNL - Classificação Automática de Texto (CAT). Os métodos SI têm sido normalmente aplicados a pequenos conjuntos de dados tabulares e não foram sistematicamente comparados na tarefa de CAT. Consideramos várias soluções CAT de última geração neurais e não neurais aplicadas a diversos conjuntos de dados. Respondemos a várias questões de pesquisa com base no trade-off do um tripé: eficácia, eficiência, redução. Nossas respostas revelam um enorme potencial para soluções de SI. Além disso, no caso de ajuste-fino dos métodos transformers, os métodos SI reduzem a quantidade de dados necessários, sem perder a eficácia e com ganhos consideráveis de tempo de treinamento. Considerando as questões reveladas pelas abordagens tradicionais de SI, a segunda principal contribuição é a proposta de duas soluções de SI. E2SC, um framework orientado a redundância de duas etapas destinada a grandes conjuntos de dados com foco particular em transformers. O E2SC estima a probabilidade de cada instância ser removida do conjunto de treinamento com base em classificadores fracos escaláveis, rápidos e calibrados. Nossa hipótese é que é possível estimar a eficácia de um classificador forte (transformer) com um mais fraco. No entanto, como mencionado, o E2SC concentra-se apenas na remoção de instâncias redundantes, deixando outros aspectos intocados, como o ruído, que podem ajudar a reduzir ainda mais o treinamento. Portanto, também propomos o biO-IS, um framework estendido construído sobre o anterior, com o objetivo de remover simultaneamente instâncias redundantes e ruidosas do treinamento. O biOIS estima a redundância com base no E2SC e captura o ruído com o suporte de uma nova etapa baseada na entropia. Também propomos um novo processo iterativo para estimar taxas de redução quase ótimas para ambas as etapas. Nossa solução final é capaz de reduzir os conjuntos de treinamento em 41% em média (até 60%), mantendo a eficácia em todos os conjuntos de dados testados, com ganhos de aceleração de 1,67 em média (até 2,46x). Nenhuma outra linha de base foi capaz de escalar para conjuntos de dados com centenas de milhares de documentos e alcançar resultados com este nível de qualidade, considerando o compromisso entre redução, eficácia e aceleração do treinamento.	pt_BR
dc.description.sponsorship	CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior	pt_BR
dc.language	eng	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.relation	Programa Institucional de Internacionalização – CAPES - PrInt	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/pt/	*
dc.subject	Instance Selection	pt_BR
dc.subject	Automatic Text Classification	pt_BR
dc.subject.other	Computação – Teses	pt_BR
dc.subject.other	Aprendizado do computador – Teses	pt_BR
dc.subject.other	Classificação (Computadores) – Teses	pt_BR
dc.subject.other	Processamento de linguagem natural – Teses	pt_BR
dc.subject.other	Seleção de Instâncias – Teses	pt_BR
dc.title	A comprehensive exploitation of instance selection methods for automatic text classification	pt_BR
dc.title.alternative	Uma exploração abrangente de métodos de seleção de instâncias para classificação automática de texto	pt_BR
dc.type	Tese	pt_BR
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
Tese_WashingtonCunha_PPGCC_DCC_UFMG_vfinal.pdf		3.12 MB	Adobe PDF	View/Open

Show simple item record

This item is licensed under a Creative Commons License