Learning to schedule web page updates using genetic programming

Aécio Solano Rodrigues Santos

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/ESBF-97GJSQ

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Nivio Ziviani	pt_BR
dc.contributor.referee1	Edleno Silva de Moura	pt_BR
dc.contributor.referee2	Wagner Meira Junior	pt_BR
dc.contributor.referee3	Ana Carolina Brandao Salgado	pt_BR
dc.creator	Aécio Solano Rodrigues Santos	pt_BR
dc.date.accessioned	2019-08-12T08:06:19Z	-
dc.date.available	2019-08-12T08:06:19Z	-
dc.date.issued	2013-03-11	pt_BR
dc.identifier.uri	http://hdl.handle.net/1843/ESBF-97GJSQ	-
dc.description.abstract	One of the main challenges endured when designing a scheduling policy regarding freshness is to estimate the likelihood of a previously crawled web page being modified on the web, so that the scheduler can use this estimation to determine the order in which those pages should be visited. A good estimation of which pages have more chance of being modified allows the system to reduce the overall cost of monitoring its crawled web pages for keeping updated versions. In this work we present a novel approach that uses machine learning to generate score functions that produce accurate rankings of pages regarding their probability of being modified on the Web when compared to their previously crawled versions. We propose a flexible framework that uses Genetic Programming to evolve score functions to estimate the likelihood that a web page has been modified. We present a thorough experimental evaluation of the benefits of using the framework over five state-of-the-art baselines. Considering the Change Ratio metric, the values produced by our best evolved function show an improvement from 0.52 to 0.71 on average over the baselines.	pt_BR
dc.description.resumo	Um dos principais desafios enfrentados durante o desenvolvimento de políticas de escalonamento para atualizações de páginas web é estimar a probabilidade de uma página que já foi coletada previamente ser modificada na Web. Esta informação pode ser usada pelo escalonador de um coletor de páginas web para determinar a ordem na qual as páginas devem ser recoletadas, permitindo ao sistema reduzir o custo total de monitoramento das páginas coletadas para mantê-las atualizadas. Nesta dissertação é apresentada uma nova abordagem que usa aprendizado de máquina para gerar funções de score que produzem listas ordenadas de páginas com relação a probabilidade deterem sido modificadas na Web quando comparado com a última versão coletada. É proposto um arcabouço flexível que usa Programação Genética para evoluir funções que estimam a probabilidade de a página ter sido modificada. É apresentado ainda uma avaliação experimental dos benefícios de usar o arcabouço proposto em relação a cinco abordagens estado-da-arte. Considerando a métrica Change Ratio, os valores produzidos pela melhor função gerada pelo arcabouço proposto mostram uma melhora de 0.52 para 0.71, em média, em relação aos baselines.	pt_BR
dc.language	Português	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Coleta incremental de páginas web	pt_BR
dc.subject	Programação genética	pt_BR
dc.subject	Políticas de escalonamento	pt_BR
dc.subject.other	Programação genética (Computação)	pt_BR
dc.subject.other	Computação	pt_BR
dc.subject.other	Sistemas de recuperação da informação	pt_BR
dc.title	Learning to schedule web page updates using genetic programming	pt_BR
dc.type	Dissertação de Mestrado	pt_BR
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
aecio_solano_rodrigues_santos.pdf		590.51 kB	Adobe PDF	View/Open

Show simple item record