A natureza de conjuntos de dados científicos em repositórios sul-americanos: um levantamento de formatos e extensões

dc.creatorMarcello Mundim Rodrigues
dc.creatorCíntia de Azevedo Lourenço
dc.creatorGuilherme Ataíde Dias
dc.date.accessioned2024-01-02T18:38:01Z
dc.date.accessioned2025-09-09T01:20:59Z
dc.date.available2024-01-02T18:38:01Z
dc.date.issued2022-05-27
dc.description.abstractObjective: identifying the scientific data repositories created and managed by Higher Education Institutions and/or South American research and funding agencies; identifying and describing the formats and extensions of files that compile the scientific datasets deposited in these repositories. Methods: eight repositories retrieved by RE3DATA were selected for investigation. A population (N) of 1.115 scientific datasets was obtained. By using Stratified Random Sampling, the resulting sample (n) value was 258 datasets, which corresponds to 23,15% of the population (N). Data surveyed from the samples were condensed into tables and charts. Results: it was noticed that the nature of the scientific datasets investigated is centered on textual and numerical data, saved in text files and tables, respectively. Also, the datasets may be either homogeneous (one or more files saved in a unique format and extension, e.g.: image format in .jpg) or heterogeneous (files saved in different formats and extensions, content of the data, as observed in the .gpx and gdb extensions, which refer to geospatial data, therefore, alphanumeric data. Conclusions: There is a growing need of describing the nature of data, as well as the formats and extensions of files. This kind of descriptive metadata would be valuable to potential users, as it would allow a greater understanding of the context of the data, focusing on data reuse.
dc.format.mimetypepdf
dc.identifier.doihttps://doi.org/10.5007/1518-2924.2022.e85148
dc.identifier.issn1518-2924
dc.identifier.urihttps://hdl.handle.net/1843/62284
dc.languagepor
dc.publisherUniversidade Federal de Minas Gerais
dc.relation.ispartofEncontros Bibli: revista eletrônica de biblioteconomia e ciência da informação
dc.rightsAcesso Aberto
dc.subjectCiência da Informação
dc.subjectInformação
dc.subjectRepositórios institucionais
dc.subjectBibliotecas - Levantamento
dc.subject.otherDados científicos
dc.subject.otherConjuntos de dados
dc.subject.otherRepositórios de dados
dc.subject.otherFormatos e extensões
dc.subject.otherLevantamento
dc.titleA natureza de conjuntos de dados científicos em repositórios sul-americanos: um levantamento de formatos e extensões
dc.title.alternativeThe nature of scientific datasets in South American repositories: a survey of formats and extensions
dc.typeArtigo de periódico
local.citation.epage26
local.citation.issue1
local.citation.spage1
local.citation.volume27
local.description.resumoObjetivo: identificar os repositórios de dados científicos criados e geridos por Instituições de Ensino Superior e/ou agências de pesquisa e fomento sul-americanas; identificar e descrever os formatos e extensões dos arquivos que compõem os conjuntos de dados científicos depositados nesses repositórios. Método: oito repositórios recuperados pelo RE3DATA foram selecionados à investigação. Obteve-se uma população (N) de 1.115 conjuntos de dados científicos. A partir da Amostragem Aleatória Estratificada, chegou-se ao valor da amostra (n) igual a 258 conjuntos de dados, que corresponde a 23,15% da população (N). Os dados retirados das amostras foram condensados em tabelas e quadros. Resultado: notou-se que a natureza dos conjuntos de dados científicos investigados se concentra em dados textuais e numéricos, salvos em arquivos de texto e em tabelas, respectivamente. Percebeu-se que os conjuntos de dados podem ser tanto homogêneos (um ou mais arquivos salvos em um único formato e extensão, ex.: formato de imagem em .jpg) ou heterogêneos (arquivos salvos em diferentes formatos e extensões, ex.: mesmo formato de imagem salvo em .jpg e .tiff) em sua composição. Apurou-se também que algumas extensões possibilitam a identificação da natureza, do domínio e do conteúdo dos dados, como observado nas extensões .gpx e .gdb, que se referem a dados de geolocalização, logo, de natureza alfanumérica. Conclusões: há crescente necessidade de se descrever a natureza dos dados, assim como os formatos e extensões de seus arquivos. Esse tipo de metadado descritivo seria valioso a potenciais usuários, pois permitiria obter maior compreensão do contexto dos dados com foco em seu reúso.
local.identifier.orcidhttps://orcid.org/0000-0001-7945-6673
local.identifier.orcidhttps://orcid.org/0000-0002-2172-7300
local.identifier.orcidhttps://orcid.org/0000-0001-6576-0017
local.publisher.countryBrasil
local.publisher.departmentECI - DEPARTAMENTO DE ORGANIZAÇÃO E TRATAMENTO DA INFORMAÇÃO
local.publisher.departmentECI - ESCOLA DE CIENCIA DA INFORMAÇÃO
local.publisher.initialsUFMG
local.url.externahttps://periodicos.ufsc.br/index.php/eb/article/view/85148

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
A natureza de conjuntos de dados científicos em repositórios sul-americanos_ um levantamento de formatos e extensões.pdf
Tamanho:
499.38 KB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
License.txt
Tamanho:
1.99 KB
Formato:
Plain Text
Descrição: