No one-size-fits-all solution to clean GBIF

Alexander Zizka; Thais Ferreira-araújo; Fernanda Gondim Lambert Moreira; Nathália Michellyda Cunha Santos; Tiago Andrade Borges Santos; Renata Clicia Dos Santos-costa; Filipe C. Serrano; Ana Paula Alves da Silva; Arthur de Souza Soares; Paolla Gabryelle Cavalcante de Souza; Eduardo Calisto Tomaz; Fernanda Antunes Carvalho; Valéria Fonseca Vale; Tiago Luiz Vieira; Alexandre Antonelli; Alice de Moraes Calvente Versieux; Mabel Rociobaez-lizarazo; Andressa Cabral; Jéssica Fernanda Ramos Coelho; Matheus Colli Silva; Mariana Ramos Fantinati; Moabe F. Fernandes

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/76352

Full metadata record

DC Field	Value	Language
dc.creator	Alexander Zizka	pt_BR
dc.creator	Thais Ferreira-araújo	pt_BR
dc.creator	Fernanda Gondim Lambert Moreira	pt_BR
dc.creator	Nathália Michellyda Cunha Santos	pt_BR
dc.creator	Tiago Andrade Borges Santos	pt_BR
dc.creator	Renata Clicia Dos Santos-costa	pt_BR
dc.creator	Filipe C. Serrano	pt_BR
dc.creator	Ana Paula Alves da Silva	pt_BR
dc.creator	Arthur de Souza Soares	pt_BR
dc.creator	Paolla Gabryelle Cavalcante de Souza	pt_BR
dc.creator	Eduardo Calisto Tomaz	pt_BR
dc.creator	Fernanda Antunes Carvalho	pt_BR
dc.creator	Valéria Fonseca Vale	pt_BR
dc.creator	Tiago Luiz Vieira	pt_BR
dc.creator	Alexandre Antonelli	pt_BR
dc.creator	Alice de Moraes Calvente Versieux	pt_BR
dc.creator	Mabel Rociobaez-lizarazo	pt_BR
dc.creator	Andressa Cabral	pt_BR
dc.creator	Jéssica Fernanda Ramos Coelho	pt_BR
dc.creator	Matheus Colli Silva	pt_BR
dc.creator	Mariana Ramos Fantinati	pt_BR
dc.creator	Moabe F. Fernandes	pt_BR
dc.date.accessioned	2024-09-11T17:51:16Z	-
dc.date.available	2024-09-11T17:51:16Z	-
dc.date.issued	2020	-
dc.citation.volume	8	pt_BR
dc.citation.spage	e9916	pt_BR
dc.identifier.issn	21678359	pt_BR
dc.identifier.uri	http://hdl.handle.net/1843/76352	-
dc.description.abstract	Os registros de ocorrência de espécies fornecem a base para muitos estudos de biodiversidade. Eles derivam de espécimes georreferenciados depositados em coleções de história natural e observações visuais, como aquelas obtidas por meio de vários aplicativos móveis. Dado o rápido aumento na disponibilidade de tais dados, o controle de qualidade e precisão constitui uma preocupação particular. A filtragem automática é um meio escalável e reproduzível para identificar registros potencialmente problemáticos e personalizar conjuntos de dados de bancos de dados públicos, como o Global Biodiversity Information Facility (GBIF; http://www.gbif.org), para análises de biodiversidade. No entanto, não está claro quantos dados podem ser perdidos pela filtragem, se os mesmos filtros devem ser aplicados em todos os grupos taxonômicos e qual é o efeito da filtragem em análises comuns a jusante. Aqui, avaliamos o efeito de 13 filtros recentemente propostos na inferência de padrões de riqueza de espécies e avaliações automatizadas de conservação para 18 táxons neotropicais, incluindo animais terrestres e marinhos, fungos e plantas baixados do GBIF. Descobrimos que um total de 44,3% dos registros são potencialmente problemáticos, com grande variação entre grupos taxonômicos (25–90%). Uma pequena fração de registros foi identificada como errônea no sentido estrito (4,2%) e uma proporção muito maior como inadequada para a maioria das análises posteriores (41,7%). Filtros de informações duplicadas, ano de coleta e base de registro, bem como coordenadas em áreas urbanas, ou para táxons terrestres no mar ou táxons marinhos em terra, têm o maior efeito. A filtragem automatizada pode ajudar a identificar registros problemáticos, mas requer personalização de quais testes e limites devem ser aplicados ao grupo taxonômico e à área geográfica em foco. Nossos resultados enfatizam a importância do registro e da exploração completos dos metadados associados aos registros de espécies para a pesquisa de biodiversidade.	pt_BR
dc.description.resumo	Species occurrence records provide the basis for many biodiversity studies. They derive from georeferenced specimens deposited in natural history collections and visual observations, such as those obtained through various mobile applications. Given the rapid increase in availability of such data, the control of quality and accuracy constitutes a particular concern. Automatic filtering is a scalable and reproducible means to identify potentially problematic records and tailor datasets from public databases such as the Global Biodiversity Information Facility (GBIF; http://www.gbif.org), for biodiversity analyses. However, it is unclear how much data may be lost by filtering, whether the same filters should be applied across all taxonomic groups, and what the effect of filtering is on common downstream analyses. Here, we evaluate the effect of 13 recently proposed filters on the inference of species richness patterns and automated conservation assessments for 18 Neotropical taxa, including terrestrial and marine animals, fungi, and plants downloaded from GBIF. We find that a total of 44.3% of the records are potentially problematic, with large variation across taxonomic groups (25–90%). A small fraction of records was identified as erroneous in the strict sense (4.2%), and a much larger proportion as unfit for most downstream analyses (41.7%). Filters of duplicated information, collection year, and basis of record, as well as coordinates in urban areas, or for terrestrial taxa in the sea or marine taxa on land, have the greatest effect. Automated filtering can help in identifying problematic records, but requires customization of which tests and thresholds should be applied to the taxonomic group and geographic area under focus. Our results stress the importance of thorough recording and exploration of the meta-data associated with species records for biodiversity research.	pt_BR
dc.format.mimetype	pdf	pt_BR
dc.language	eng	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	ICB - INSTITUTO DE CIÊNCIAS BIOLOGICAS	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.relation.ispartof	PeerJ	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Biodiversity	pt_BR
dc.subject	Ecology	pt_BR
dc.subject.other	Biodiversidade	pt_BR
dc.subject.other	Ecologia	pt_BR
dc.subject.other	Proteção Ambiental	pt_BR
dc.title	No one-size-fits-all solution to clean GBIF	pt_BR
dc.title.alternative	Não existe uma solução única para limpar GBIF	pt_BR
dc.type	Artigo de Periódico	pt_BR
dc.url.externa	https://peerj.com/articles/9916/	pt_BR
Appears in Collections:	Artigo de Periódico

Files in This Item:

File	Description	Size	Format
No one-size-fits-all solution to clean.pdfA.pdf		2.06 MB	Adobe PDF	View/Open

Show simple item record