Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/ECIC-9CPH3G
Type: Tese de Doutorado
Title: Proposta de uma base de citações da literatura científica por meio da extração automática de dados do SciELO: por meio da extração automática de dados do SciELO
Authors: Max Cirino de Mattos
First Advisor: Beatriz Valadares Cendon
First Referee: Cícera Henrique da Silva
Second Referee: Maria Cristina Soares Guimarães
Third Referee: Ricardo Hiroshi Caldeira Takahashi
metadata.dc.contributor.referee4: Marlene de Oliveira
metadata.dc.contributor.referee5: Renata Maria Abrantes Baracho Porto
Abstract: Diversos autores ressaltam a importância da criação de uma base de citações nos moldes do Science Citation Index (SCI) para a visibilidade da produção científica local de países em desenvolvimento, inclusive para a produção de políticas científicas nacionais. Nesse sentido, a obtenção automática dos metadados dos artigos e referências citadas disponíveis no formato eXtensible Markup Language (XML) para a criação de uma base de citações considerando como fonte primária a Scientific Electronic Library On-line (SciELO) representa um passo inicial importante para a criação de um índice de citações para a América Latina e Caribe. A metodologia proposta trata da geração automática dessa base de citações, e o presente trabalho analisa os resultados encontrados nas 4 etapas inicias dessa metodologia a identificação dos periódicos; a obtenção dos dados estatísticos anuais (dados fonte) de cada periódico; a vinculação da(s) área(s) de conhecimento a cada periódico; e a criação do Módulo Dados Cadastrais do banco de dados e nas três etapas finais: a identificação e armazenamento dos arquivos XML disponíveis no SciELO; a interpretação desses arquivos para extração dos metadados e informações sobre cada referência citada; e o armazenamento de todas as informações extraídas de cada arquivo XML no banco de dados (no Módulo Base de Citações). O teste inicial do protótipo criado foi realizado com o periódico Perspectivas em Ciência da Informação (PCI), apresentando a análise de 24 fascículos, 300 artigos, 7.714 citações, 579 resumos, 587 títulos, 2.358 palavras-chave, 686 autores de artigos e 10.394 autores identificados nas citações. A validação do protótipo foi realizada com a Coleção Saúde Pública, resultando em 14 periódicos, 14 editores, 1.335 fascículos, 23.780 artigos, 491.739 citações, 37.124 resumos, 44.696 títulos, 149.874 palavras-chave, 73.859 autores de artigos e 1.240.734 autores identificados nas citações. Nenhum procedimento de desambiguação de nomes de fontes ou autores foi realizado. As diferenças encontradas entre os números disponibilizados pelo SciELO nos dados fonte de cada periódico e os números levantados a partir da interpretação dos arquivos XML são explicadas, e algumas soluções propostas. O elevado índice de acerto na identificação das citações a partir dos arquivos XML comprovou aeficácia do processo desenvolvido. Entre os problemas identificados, destaca-se a diferença entre os dados fonte de um mesmo ISSN em coleções diferentes. Mais detalhes sobre a forma como o SciELO calcula os dados sobre número de fascículos, artigos e citaçõesprecisam ser investigados para a análise das diferenças encontradas. Pretende-se disponibilizar a base de citações gerada para a PCI em seu site. Nova pesquisa está em andamento, buscando a obtenção de todos os arquivos XML das coleções citadas para a construção de uma base de citações para cobertura da América Latina, Caribe e outras coleções do SciELO.
Abstract: Several authors emphasize the importance of creating a citation index - such as the Science Citation Index (SCI) as an instrument for the production of national science policies and therefore for the promotion of local scientific development in less developed countries. The automatic retrieval of metadata of articles and references cited available in eXtensible Markup Language (XML) files to create this kind of index - using Scientific Electronic Library Online (SciELO) as a primary source - represents an important initial step for creating a Web of Science for Latin America and the Caribbean. The methodology used is based upon theautomatic generation of such citations, and this research analyzes the results found in the initial stages of this methodology - identification of journals; obtaining the annual statistical data (source data) for each journal, the identification of areas of knowledge for each journal and the creation of the database module "Registration Data" - and the three final stages: identification and storage of XML files available in SciELO; interpreting these files for extracting metadata and information about each cited reference and the storage of all information from each XML file in the database module "Citation Index". The initial test of the prototype built was performed with the journal "Perspectives in Information cience" (PIS), presenting the analysis of 24 issues, 300 articles, 7,714 citations, 579 abstracts, 587 titles, 2,358 keywords, 686 authors of articles and 10,394 authors identified in citations. The validation of the prototype was performed with the Public Health Collection resulting in 14 journals, 14 publishers, 1,335 issues, 23,780 articles, 491,739 citations, 37,124 abstracts, 44,696 titles, 149,874 keywords, 73,859 authors of articles and 1,240,734 authors identified in citations. There were no disambiguation procedures for names of authors or sources. The differences between the values provided by the source data of SciELO for each journal andthe numbers collected from the interpretation of the XML files are explained and some solutions are proposed. The high success rate in identifying metadata and citations from XML files proved the effectiveness of the prototype. Among the problems identified, one to highlight was the difference between the source data for the same ISSN in differentcollections. More details about how SciELO calculates the number of issues, articles and citations need to be investigated for the analysis of the differences found. It is intended to provide the citation index generated for PIS on its website. Another research study is underway which seeks to obtain all the XML files from listed collections of SciELO in order to construct a citation index for Latin America, the Caribbean and other collections of SciELO.
Subject: Ciência da informação
Bibliometria
Ciência Estatística
language: Português
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/ECIC-9CPH3G
Issue Date: 1-Oct-2013
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
20131001_tese_max_c_mattos.pdf62.81 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.