Padronização e automação de dados da coleção acarológica do centro de coleções taxonômicas da UFMG: Um enfoque na gestão de metadados e modelagem de distribuição de espécies

Descrição

Tipo

Dissertação de mestrado

Título alternativo

Data Standardization and Automation for the Acarological Collection of the Centro de Coleções Taxonômicas (CCT-UFMG) at UFMG: An Approach to Metadata Management and Species Distribution Modeling

Primeiro orientador

Membros da banca

Resumo

A digitalização e padronização de dados biológicos são fundamentais para a gestão eficiente de coleções científicas, permitindo sua integração a repositórios globais e ampliando seu potencial para pesquisas ecológicas e biogeográficas. Esta dissertação buscou a padronização e automação dos dados da Coleção Acarológica UFMG-AC, visando solucionar problemas de fragmentação e inconsistência dos registros. O estudo implementou metodologias computacionais para a conversão e organização dos dados, garantindo conformidade com o padrão Darwin Core (DwC). Foram desenvolvidos scripts e pipelines para a estruturação de metadados, correção de inconsistências taxonômicas e geoespaciais, e integração dos registros a plataformas internacionais como o Global Biodiversity Information Facility (GBIF) e o Sistema de Informação sobre a Biodiversidade Brasileira (SiBBr). Paralelamente, a modelagem de distribuição de espécies (Species Distribution Modeling – SDM) foi aplicada para inferir padrões biogeográficos e prever áreas potenciais de ocorrência das espécies catalogadas. A biblioteca EcoDistrib foi utilizada para otimizar a seleção de variáveis ambientais e a execução de modelos baseados em aprendizado de máquina, enquanto técnicas de validação cruzada e métricas estatísticas asseguraram a robustez dos resultados. A análise comparativa dos dados antes e após a padronização evidenciou um aumento significativo na qualidade, consistência e acessibilidade das informações, com a correção de redundâncias taxonômicas e a melhoria da precisão espacial dos registros. A integração dos dados aprimorados às plataformas GBIF e SiBBr conferiu maior visibilidade à coleção, facilitando seu uso em estudos biogeográficos e de conservação. Os modelos de distribuição revelaram padrões espaciais relevantes, identificando lacunas nos registros e sugerindo novas áreas de ocorrência para futuras coletas. A pesquisa demonstra que a combinação de técnicas computacionais com abordagens tradicionais de curadoria pode aprimorar significativamente a gestão de coleções biológicas, destacando a importância da automação e padronização para a preservação, compartilhamento e aplicabilidade científica dos dados de biodiversidade. Os resultados reforçam a relevância da digitalização e do uso de ferramentas computacionais na modernização de acervos científicos, contribuindo para o avanço da biogeografia, ecologia e conservação da biodiversidade.

Abstract

The digitization and standardization of biological data are essential for the efficient management of scientific collections, enabling their integration into global repositories and expanding their potential for ecological and biogeographical research. This dissertation sought to standardize and automate data from the UFMG-AC Acarological Collection to address challenges concerning data fragmentation and inconsistency. The study implemented computational methodologies for data conversion and organization, ensuring compliance with the Darwin Core (DwC) standard. Scripts and pipelines were developed to structure metadata, correct taxonomic and geospatial inconsistencies, and integrate records into international platforms such as the Global Biodiversity Information Facility (GBIF) and the Brazilian Biodiversity Information System (SiBBr). Concurrently, Species Distribution Modeling (SDM) was applied to infer biogeographical patterns and predict potential occurrence areas for cataloged species. The EcoDistrib library was used to optimize environmental variable selection and machine learning based model execution, while cross-validation techniques and statistical metrics ensured result robustness. Comparative analysis of data before and after standardization revealed significant improvements in quality, consistency, and accessibility, including taxonomic redundancy correction and enhanced spatial accuracy. The integration of enhanced data into GBIF and SiBBr increased the collection’s visibility, facilitating its use in biogeographical and conservation studies. Distribution models identified relevant spatial patterns, highlighting gaps in records and suggesting new areas for future sampling. The research demonstrates that combining computational techniques with traditional curation approaches can significantly improve biological collection management, emphasizing the importance of automation and standardization for preserving, sharing, and applying biodiversity data. The findings reinforce the relevance of digitization and computational tools in modernizing scientific collections, advancing biogeography, ecology, and biodiversity conservation.

Assunto

Bioinformática, Biodiversidade, Ecologia, Aprendizado de Máquina, Padrões de Referência

Palavras-chave

Digitalização de coleções biológicas, Modelagem de distribuição de espécies, Darwin Core, Aprendizado de máquinas, Integração de dados

Citação

Departamento

Endereço externo

Avaliação

Revisão

Suplementado Por

Referenciado Por

Licença Creative Commons

Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso aberto