Classificação e modelagem de tópicos para documentos de licitação via NLP e deep learning

Carregando...
Imagem de Miniatura

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Minas Gerais

Descrição

Tipo

Dissertação de mestrado

Título alternativo

Topic classification and modeling for bidding documents via NLP and deep learning

Primeiro orientador

Membros da banca

Renato Antônio Celso Ferreira
Adriana Silvina Pagano

Resumo

Dados abertos governamentais (OGD, do inglês \textit{Open Government Data}) englobam dados sobre ações, gastos e investimentos governamentais, disponibilizados de forma acessível e transparente ao público. No Brasil, a Lei de Acesso à Informação (Lei n.º 12.527 de 2011) assegura aos cidadãos o direito de acesso a informações dos três poderes da União, do Distrito Federal, dos estados e dos municípios. O OGD promove a transparência e a participação pública, sendo essencial para diversas aplicações tanto no setor público quanto no privado. Em particular, as licitações públicas – que envolvem uma ampla gama de documentos como atas, editais e erratas – são processos sensíveis a fraudes e irregularidades, uma vez que lidam diretamente com o uso de recursos públicos. Em resposta a esses desafios, pesquisas recentes vêm desenvolvendo aplicações orientadas a dados que fortalecem a inteligência de órgãos reguladores e facilitam o monitoramento das despesas públicas pelos cidadãos, promovendo a segurança no processo licitatório. Este trabalho apresenta um estudo de caso em Minas Gerais, focado em aplicações de \textit{Natural Language Processing} (NLP) e \textit{Deep Learning} (DL) para automatizar processos e detectar padrões latentes em documentos de licitações municipais. As licitações municipais trazem desafios adicionais, pois a ausência de padronização entre os portais de transparência dos municípios gera uma diversidade de formatos e modos de disponibilização dos documentos. Nosso trabalho se inicia com a construção do LiPSET, um conjunto de dados com 9.761 documentos de 18 municípios de Minas Gerais, dos quais 6.337 foram rotulados em 4 meta-classes e 13 tipos, elaborados com o apoio de especialistas. A caracterização do LiPSET permitiu observar os principais desafios do domínio de licitações públicas municipais, como o desbalanceamento de classes e a falta de padrão na distribuição dos documentos por município. Apresentamos também o LiBERT-SE, um modelo BERT adaptado e treinado especificamente para documentos de licitação pública, com potencial para servir de base para diversas aplicações. Duas aplicações práticas foram desenvolvidas: a primeira é uma classificação automática de documentos que usa métodos heurísticos e modelos LSTM, avaliando técnicas de pré-processamento e de representação textual para otimizar o desempenho; nesta aplicação, os métodos propostos alcançaram bons resultados, com valores para \textit{F1-Macro} e \textit{F1-Weighted} superiores a 96\% na melhor configuração para na classificação por tipo de documento. Para a classificação das meta-classes utilizando o metido heurístico o resultado foi 91\% de F1-Macro. A segunda aplicação, de modelagem de tópicos latentes em documentos de licitação, avalia o potencial do LiBERT-SE para identificar padrões utilizando o BERTopic, uma metodologia de modelagem de tópicos baseada em técnicas de agrupamento e \textit{sentence embeddings} contextualizados; neste contexto, o LiBERT-SE superou consistentemente os \textit{baselines} com significância estatística nas métricas de coerência e diversidade de tópicos. Em geral, a avaliação qualitativa identificou temas gerais de licitação nos tópicos gerados pelo LiBERT-SE; contudo, observou-se muito ruído nas palavras que descrevem os tópicos. Em suma, as aplicações apresentadas demonstraram impactos práticos para a classificação de documentos, enquanto a modelagem de tópicos ainda requer refinamento para potencializar sua aplicação em consultas de interesse público. O conjunto de dados LiPSET e o modelo LiBERT-SE estão publicamente disponíveis e podem ser utilizados como base para futuras pesquisas voltadas à detecção de padrões em documentos de licitação pública.

Abstract

Open government data (OGD) encompasses data on government actions, expenditures, and investments, made accessible and transparent to the public. In Brazil, the Access to Information Law (Law No. 12,527 of 2011) guarantees citizens the right to access information from the three branches of government, Federal District, states and municipalities. OGD promotes transparency and public participation, and is essential for a variety of applications in both the public and private sectors. In particular, public procurement processes – which involve a wide range of documents such as minutes, notices, and errata – are processes that are susceptible to fraud and irregularities, since they directly involve the use of public resources. In response to these challenges, recent research has been developing data-driven applications that strengthen the intelligence of regulatory agencies and facilitate the monitoring of public expenditures by citizens, promoting security in the bidding process. This paper presents a case study of Minas Gerais, focused on applications of Natural Language Processing (NLP) and Deep Learning (DL) to automate processes and detect latent patterns in municipal bidding documents. Municipal bidding processes bring additional challenges, since the lack of standardization among the transparency portals of the municipalities generates a diversity of formats and ways of making the documents available. Our work begins with the construction of LiPSET, a dataset with 9,761 documents from 18 municipalities in Minas Gerais, of which 6,337 were labeled in 4 meta-classes and 13 types, developed with the support of experts. The characterization of LiPSET allowed us to observe the main challenges of the municipal public bidding domain, such as class imbalance and the lack of pattern in the distribution of documents by municipality. We also present LiBERT-SE, a BERT model adapted and trained specifically for public bidding documents, with the potential to serve as a basis for several applications. Two practical applications were developed: the first is an automatic classification of documents that uses heuristic methods and LSTM models, evaluating preprocessing and textual representation techniques to optimize performance; in this application, the proposed methods achieved good results, with values for F1-Macro and F1-Weighted higher than 96% in the best configuration for classification by document type. For the classification of meta-classes using the heuristic method, the result was 91% of F1-Macro. The second application, latent topic modeling in bidding documents, evaluates the potential of LiBERT-SE to identify patterns using BERTopic, a topic modeling methodology based on clustering techniques and contextualized sentence embeddings; in this context, LiBERT-SE consistently outperformed the baselines with statistical significance in the metrics of topic coherence and diversity. In general, the qualitative evaluation identified general bidding themes in the topics generated by LiBERT-SE; however, noises was observed in the words describing the topics. In summary, the presented applications demonstrated practical impacts for document classification, while topic modeling still requires refinement to enhance its application in public interest queries. The LiPSET dataset and the LiBERT-SE model are publicly available and can be used as a basis for future research aimed at detecting patterns in public bidding documents.

Assunto

Computação – Teses, Engenharia de software – Teses, Processamento da linguagem natural (Computação) – Teses, Aprendizado profundo – Teses, Informações eletrônicas Governamentais - Dados conectados – Teses, Licitação pública – Belo Horizonte - Teses

Palavras-chave

processamento de linguagem natural, aprendizado profundo, classificação de documentos, modelagem de tópicos, dados abertos governamentais, licitações públicas

Citação

Endereço externo

Avaliação

Revisão

Suplementado Por

Referenciado Por