Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/SLBS-7NAEMD
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Alberto Henrique Frade Laenderpt_BR
dc.contributor.advisor-co1Marcos Andre Goncalvespt_BR
dc.contributor.referee1Clodoveu Augusto Davis Juniorpt_BR
dc.contributor.referee2Nivio Zivianipt_BR
dc.creatorRicardo Goncalves Cotapt_BR
dc.date.accessioned2019-08-14T18:34:38Z-
dc.date.available2019-08-14T18:34:38Z-
dc.date.issued2008-04-23pt_BR
dc.identifier.urihttp://hdl.handle.net/1843/SLBS-7NAEMD-
dc.description.abstractIn this dissertation, we propose a heuristic-based hierarchical clustering (HHC) method to deal with the name disambiguation problem in collections of bibliographic citations. The method successively fuses clusters of citations of compatible authors based on several heuristics and similarity measures on the components of the citations (e.g., co-authors' names, title of the work, name of the publication venue). In each phase, the information of fused clusters is aggregated, providing more information for the nextround of fusion. Experiments with a dataset taken from the DBLP Computer Science Bibliography collection show gains of up to 12% against a previous method that uses the same pattern matching function but does not consider hierarchical clustering. Experiments also show gains of up to 21% against a supervised baseline, which is based on SVM and 15,5% against an unsupervised one based on K-Means. Both baselines use the same evidence considered by our method as well as privileged information about the correct number of clusters, i.e., both baselines require that the correct number of final clusters be known \textit{a priori}, which is unfeasible for large colections.We also present a new tool which uses the HHC method to deal the specific content from a DL.Finally, we present a case study where the developed tool was used to disambiguate the authors' names incitations extracted from the Brazilian Digital Library of Computing (BDBComp). The quality of the generated group in this study suggests that this tool can be used in digital libraries to help in the task of maintaining consistency of their citations. For example, appearances of an author name can be displayed in a unique format, no matter how they appear in the orginal metadata.pt_BR
dc.description.resumoNeste trabalho, é proposto um método de agrupamento hierárquico baseado em heurísticas (HHC) para tratar o problema de resolução de ambigüidades entre nomes de autores de uma coleção de citações bibliográficas. O método sucessivamente funde grupos de citações de autores com nomes compatíveis baseando-se em várias herísticas que exploram os componentes das citações (nomes de co-autores, título, local de publicação). Em cada fase do agrupamento, a informação dos grupos fundidos é agregada (todas as palavras que formam os títulos e veículos de publicações das citações contidas nos grupos são agrupadas), fornecendo maior informação para a próxima iteração de fusão. Experimentos feitos com uma coleção de teste extraída da coleção da DBLP mostram ganhos acima de 12% sobre um método anterior que utiliza o mesmo algoritmo de identi ficação de padrões na resolução de ambigüidades entre nomes (Oliveira, 2005) mas não utiliza agrupamento hierárquico. Comparado a uma estratégia supervisionada baseada no classificador SVM, nosso trabalho a supera em 21%. Em relação uma estratégia baseada na utilização de um algoritmo de agrupamento não-supervisionado(K-Means), o ganho é de 15,5%. As duas linhas de base utilizam as mesmas evidências consideradas pelo nosso método e informação privilegiada sobre o número correto de grupos. Isto é, ambas requerem que o número correto de autores seja conhecido a priori, o que é inviável para coleções de citações muito grandes, como acontece em bibliotecas digitais reais.pt_BR
dc.languagePortuguêspt_BR
dc.publisherUniversidade Federal de Minas Geraispt_BR
dc.publisher.initialsUFMGpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectremoção de ambiguidadept_BR
dc.subjectBiblioteca Digitaispt_BR
dc.subjectcitações bibliográficaspt_BR
dc.subject.otherBibliotecas digitaispt_BR
dc.subject.otherComputaçãopt_BR
dc.subject.otherRecuperação de informaçãopt_BR
dc.titleUm método de agrupamento hierárquico para resolução de ambiguidade entre nomes de autores em citações bibliográficaspt_BR
dc.typeDissertação de Mestradopt_BR
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
ricardogon_alvescota.pdf1.6 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.