Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/SLSS-8GQJNA
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Nivio Zivianipt_BR
dc.contributor.referee1Edleno Silva de Mourapt_BR
dc.contributor.referee2Marco Antônio Pinheiro de Cristopt_BR
dc.creatorWallace Favoreto Henriquept_BR
dc.date.accessioned2019-08-09T17:20:24Z-
dc.date.available2019-08-09T17:20:24Z-
dc.date.issued2011-03-10pt_BR
dc.identifier.urihttp://hdl.handle.net/1843/SLSS-8GQJNA-
dc.description.abstractOne of the main difficulties in the development of a web crawler is in the component for verifying URL uniqueness, since complex data structures are required to ensure that the identification of URLs still not collected will be performed effectively and efficiently.If the component for verifying URL uniqueness is not effective and efficient, the performance of the other web crawler components will be affected.In this work we present a new algorithm for verifying URLs uniqueness, referred to as VEUNI (VErificador de UNIcidade de URLs).The algorithm VEUNI was compared with the best known algorithm in the literature, which was considered a baseline in the experiments.The comparative study between the algorithm VEUNI and the baseline was performed through a simulation of a collection of approximately 350 million pages, using a reference collection called ClueWeb09.Experimental results show that the proposed algorithm is an alternative that can be successfully used in web crawlers designed to be scalable to the entire Web.pt_BR
dc.description.resumoUma das principais dificuldades existentes no desenvolvimento de um coletor de páginas web está no componente verificador de unicidade de URLs, pois estruturas de dados complexas são exigidas para garantir que a identificação das URLs ainda não coletadas seja feita de forma eficaz e eficiente. Caso o verificador de unicidade de URLs não ofereça eficácia e eficiência, os outros componentes do coletor serão prejudicados. Neste trabalho, apresentamos um novo algoritmo para verificar unicidade de URLs chamado VEUNI (VErificador de UNIcidade de URLs).O algoritmo VEUNI foi comparado com o melhor algoritmo conhecido na literatura, o qual foi considerado um baseline nos experimentos. O estudo comparativo entre o algoritmo VEUNI e o algoritmo baseline foi realizado por meio de uma simulação de uma coleta de aproximadamente 350 milhões de páginas, utilizando uma coleção de referência chamada ClueWeb09. Os resultados experimentais mostram que o algoritmo proposto é uma alternativa que pode ser utilizada com êxito em coletores de páginas que visam ser escaláveis para toda a Web.pt_BR
dc.languageInglêspt_BR
dc.publisherUniversidade Federal de Minas Geraispt_BR
dc.publisher.initialsUFMGpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectRecuperação de Informaçãopt_BR
dc.subjectMáquinas de buscapt_BR
dc.subjectUnicidade de URLspt_BR
dc.subject.otherComputaçãopt_BR
dc.subject.otherRecuperação de informaçãopt_BR
dc.titleVerificação de unicidade de URLs em coletores de páginas Webpt_BR
dc.typeDissertação de Mestradopt_BR
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
wallacefavoreto.pdf1.05 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.