Detecção de réplicas de sítios Web em máquinas de busca usando aprendizado de máquina

Rickson Guidolini

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/SLSS-8GQLET

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Nivio Ziviani	pt_BR
dc.contributor.advisor-co1	Adriano Alonso Veloso	pt_BR
dc.contributor.referee1	Edleno Silva de Moura	pt_BR
dc.contributor.referee2	Marco Antônio Pinheiro de Cristo	pt_BR
dc.creator	Rickson Guidolini	pt_BR
dc.date.accessioned	2019-08-14T09:00:52Z	-
dc.date.available	2019-08-14T09:00:52Z	-
dc.date.issued	2011-03-11	pt_BR
dc.identifier.uri	http://hdl.handle.net/1843/SLSS-8GQLET	-
dc.description.abstract	Earlier work estimate that at least 30% of all content available on the Web is replicated content, posing serious challenges to search engines, such as waste of computational resources and decrease in the search effectiveness. Thus, detection of replicated websites is currently a prerequisite for the development of modern search engines. However, the large amount of dynamic content and the huge amount of potential replicas make the detection of replicated website an extremely difficult task. This work focus on the development of new techniques for detecting replicated websites. Intrinsic features of replicated sites were studied and, depending on the value assumed by these features, we can discriminate pairs of replicated and nonreplicated sites. However, (i) there is great difficulty in finding the optimal values that lead to the best discriminative performance, and (ii) there is a lot of features to becombined in order to obtain the best discrimination. Therefore, we evaluated the use of machine learning techniques for detecting replicated websites and we propose an algorithm called DREAM (Detecção de RÉplicas usando Aprendizado de Máquina), which automatically combines and weights the proposed discriminative features.The algorithm DREAM was evaluated through the use of a real collection of sites, collected from the Brazilian Web. Four machine learning algorithms were evaluated: decision trees (C4.5), lazy associative classification (LAC), combinations of trees (random forests) and support vector machine (SVM). Experimental results show that the algorithm DREAM outperforms by 35.1% the best method in the literature in terms of F1 measure. The experimental results indicate that the use of machinelearning techniques lead to superior results comparing to the known algorithms in the literature.	pt_BR
dc.description.resumo	Estima-se que pelo menos 30% de todo o conteúdo disponibilizado na Web seja conteúdo replicado impondo sérios desafios às máquinas de busca, tais como desperdício de recursos computacionais e diminuição de efetividade na busca. Dessa forma, a detecção de sítios web replicados é atualmente um pré-requisito para o desenvolvimento de máquinas de busca modernas. No entanto, a grande quantidade de conteúdo dinâmico e o imenso volume de potenciais réplicas tornam a tarefa de detecção de sítios replicados extremamente difícil.O objetivo deste trabalho é a elaboração de novas técnicas de detecção de sítios replicados. Características intrínsecas de sítios replicados foram estudadas e, dependendo do valor que essas características assumem, podemos discriminar pares de sítios replicados e não-replicados. No entanto, (i) há uma grande dificuldade em encontrar o valor ideal para o qual temos a melhor discriminação, e (ii) há uma grande quantidade de características a serem combinadas de forma a se obter a melhor discriminação. Sendo assim, avaliamos a utilização de técnicas de aprendizado de máquina para a detecção de sítios web replicados e propomos um algoritmo denominado DREAM (Detecçãode RÉplicas usando Aprendizado de Máquina), que combina e pondera de forma automática as características discriminatórias propostas.O algoritmo DREAM foi avaliado em uma coleção real de sítios coletados da Web brasileira. Quatro algoritmos de aprendizado de máquina foram avaliados: árvores de decisão (C4.5), classificação associativa (LAC), combinações de árvores (Random Forests) e máquina de vetor de suporte (SVM). Resultados experimentais mostramque o algoritmo DREAM, usando combinações aleatórias de árvores, supera em 35;1% o melhor método da literatura em termos da métrica F1. Os resultados experimentais indicam que a utilização de técnicas de aprendizado de máquina leva a resultados superiores aos obtidos pelos algoritmos existentes na literatura.	pt_BR
dc.language	Inglês	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Detecção de réplicas de sítios	pt_BR
dc.subject	Recuperação de Informação	pt_BR
dc.subject	Aprendizado de máquina	pt_BR
dc.subject.other	Ferramentas de busca na Web	pt_BR
dc.subject.other	Computação	pt_BR
dc.subject.other	Sistemas de recuperação da informação	pt_BR
dc.title	Detecção de réplicas de sítios Web em máquinas de busca usando aprendizado de máquina	pt_BR
dc.type	Dissertação de Mestrado	pt_BR
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
ricksonguidolini.pdf		1.76 MB	Adobe PDF	View/Open

Show simple item record