Use este identificador para citar ou linkar para este item: http://hdl.handle.net/1843/SLBS-7NAEMD
Tipo: Dissertação de Mestrado
Título: Um método de agrupamento hierárquico para resolução de ambiguidade entre nomes de autores em citações bibliográficas
Autor(es): Ricardo Goncalves Cota
Primeiro Orientador: Alberto Henrique Frade Laender
Primeiro Coorientador: Marcos Andre Goncalves
Primeiro membro da banca : Clodoveu Augusto Davis Junior
Segundo membro da banca: Nivio Ziviani
Resumo: Neste trabalho, é proposto um método de agrupamento hierárquico baseado em heurísticas (HHC) para tratar o problema de resolução de ambigüidades entre nomes de autores de uma coleção de citações bibliográficas. O método sucessivamente funde grupos de citações de autores com nomes compatíveis baseando-se em várias herísticas que exploram os componentes das citações (nomes de co-autores, título, local de publicação). Em cada fase do agrupamento, a informação dos grupos fundidos é agregada (todas as palavras que formam os títulos e veículos de publicações das citações contidas nos grupos são agrupadas), fornecendo maior informação para a próxima iteração de fusão. Experimentos feitos com uma coleção de teste extraída da coleção da DBLP mostram ganhos acima de 12% sobre um método anterior que utiliza o mesmo algoritmo de identi ficação de padrões na resolução de ambigüidades entre nomes (Oliveira, 2005) mas não utiliza agrupamento hierárquico. Comparado a uma estratégia supervisionada baseada no classificador SVM, nosso trabalho a supera em 21%. Em relação uma estratégia baseada na utilização de um algoritmo de agrupamento não-supervisionado(K-Means), o ganho é de 15,5%. As duas linhas de base utilizam as mesmas evidências consideradas pelo nosso método e informação privilegiada sobre o número correto de grupos. Isto é, ambas requerem que o número correto de autores seja conhecido a priori, o que é inviável para coleções de citações muito grandes, como acontece em bibliotecas digitais reais.
Abstract: In this dissertation, we propose a heuristic-based hierarchical clustering (HHC) method to deal with the name disambiguation problem in collections of bibliographic citations. The method successively fuses clusters of citations of compatible authors based on several heuristics and similarity measures on the components of the citations (e.g., co-authors' names, title of the work, name of the publication venue). In each phase, the information of fused clusters is aggregated, providing more information for the nextround of fusion. Experiments with a dataset taken from the DBLP Computer Science Bibliography collection show gains of up to 12% against a previous method that uses the same pattern matching function but does not consider hierarchical clustering. Experiments also show gains of up to 21% against a supervised baseline, which is based on SVM and 15,5% against an unsupervised one based on K-Means. Both baselines use the same evidence considered by our method as well as privileged information about the correct number of clusters, i.e., both baselines require that the correct number of final clusters be known \textit{a priori}, which is unfeasible for large colections.We also present a new tool which uses the HHC method to deal the specific content from a DL.Finally, we present a case study where the developed tool was used to disambiguate the authors' names incitations extracted from the Brazilian Digital Library of Computing (BDBComp). The quality of the generated group in this study suggests that this tool can be used in digital libraries to help in the task of maintaining consistency of their citations. For example, appearances of an author name can be displayed in a unique format, no matter how they appear in the orginal metadata.
Assunto: Bibliotecas digitais
Computação
Recuperação de informação
Idioma: Português
Editor: Universidade Federal de Minas Gerais
Sigla da Instituição: UFMG
Tipo de Acesso: Acesso Aberto
URI: http://hdl.handle.net/1843/SLBS-7NAEMD
Data do documento: 23-Abr-2008
Aparece nas coleções:Dissertações de Mestrado

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
ricardogon_alvescota.pdf1.6 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.