Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/BUBD-A8SH9N
Type: Dissertação de Mestrado
Title: Análise comparativa de ferramentas de extração de metadados em artigos científicos
Authors: José Alberto Grossi Júnior
First Advisor: Marcello Peixoto Bax
First Referee: Beatriz Valadares Cendon
Second Referee: Renata Maria Abrantes Baracho Porto
Third Referee: Max Cirino de Mattos
Abstract: São inúmeras as ferramentas para extração de metadados em artigos científicos, tendo cada uma sua particularidade, tecnologia e técnicas utilizadas. Porém, com a crescente produção científica e a grande variedade de editoras, eventos e congressos, um número cada vez maior de artigos permanece sem uma extração de metadados eficaz, o que dificulta a disseminação de conhecimento e principalmente a pesquisa eletrônica desses documentos. Este trabalho compara a capacidade de extração de metadados de algumas ferramentas pré-selecionadas - Cermine, CiteSeer, CrossRef e ParsCit - utilizando para isso um experimento empírico com um conjunto de artigos. Esse conjunto abrange diversas áreas do conhecimento, diversos eventos e formatos visuais diferentes. O experimento foi realizado em ambientes pré-configurados de acordo com a característica técnica de cada ferramenta, permitindo que todos os artigos tivessem seus metadados extraídos por cada uma delas e os resultados comparados individualmente. Desta forma, com base nos resultados apresentados, pôde-se identificar o comportamento de cada uma das ferramentas no tocante à sua capacidade de extração correta de metadados. Exceto pela ferramenta CrossRef, todas as demais obtiveram resultados acima de 60%, chegando a 86.83% da ferramenta Cermine. Além disso, foram evidenciadas as principais fragilidades dessas ferramentas; pontos onde seriam necessários ajustes; metadados para os quais se obtém um maior sucesso na extração. Ademais, é apresentado também um índice de confiabilidade, que permite estabelecer para cada ferramenta uma nota. Essa nota é calculada com base nos resultados obtidos na extração de metadados pela seleção de artigos realizada.
Abstract: Currently we can find numerous tools to extract metadata from scientific papers, each one with its own particularity, technology and used techniques. However, with the increasing scientific production and the numerous publishers, events and conferences, a large part of papers still remain without an effective automated metadata extraction, hindering theknowledge dissemination and mainly the electronic search for these documents. The present work compares the correct metadata extraction from some preselected tools - Cermine, CiteSeer, CrossRef and ParsCit - using an empirical experiment with a set of scientific papers. This set covers different knowledge areas, conferences and different layouts. The experiment was made inside custom environments according the technologies each tool needs, allowing all papers to have their metadata extracted by each one and comparing results one by one. Thereby, according the presented results, its possible to identify the behavior of each tool related to the right metadata extraction. Except for the CrossRef tool, all others obtained results over 60%, including Cermine with to 86.83%. Moreover, the major weaknesses were identified for each tool; points to be fixed; metadata fields with better extraction results. Furthermore its also presented a reliability index, that allows to establish a grade for each tool. This grade is calculated based on the metadata extraction results using the selected set of papers.
Subject: Recuperação da informação
Metadados
Ciência da Informação
language: Português
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/BUBD-A8SH9N
Issue Date: 27-Nov-2015
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
masters_1.0.0.pdf4.78 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.