Detecção de réplicas de sítios web usando aprendizado semi-supervisionado baseado em maximização de expectativas

Cristiano Rodrigues de Carvalho

Detecção de réplicas de sítios web usando aprendizado semi-supervisionado baseado em maximização de expectativas

dc.creator	Cristiano Rodrigues de Carvalho
dc.date.accessioned	2026-04-02T13:52:58Z
dc.date.issued	2014-09-19
dc.description.abstract	The Web contains a vast repository of information. According to the literature about 29% of this repository contains duplicate content. Duplication of content may occur within a single web site (intra-site) or between different web sites (inter-site). This thesis addresses the problem of detecting inter-site replicas. In this work, this problem is treated as a classification task, where positive and negative replica examples are used to training a binary classifier. The proposed method uses a semi-supervised learning algorithm based on the Expectation- Maximization (EM) approach. The EM algorithm is an iterative method that allows estimation of parameters in probabilistic models with latent or not observed data. In replica detection is easy to find obvious replica and non-replica examples. The EM algorithm is used to find non-obvious examples. The complementarity from replicas and non-replicas examples is exploited through the concept of Pareto Efficiency. The algorithm used for classification of unknown examples during the EM process was the Lazy Associative Classifier (LAC). The LAC algorithm employs the concept of training projection, thus producing relevant subsets of examples for each test instance. The principle of entropy minimization is used to find the optimal parameter for label transitions considering each subset of examples. The experiments show that it is possible to achieve a reduction of 19% in the number of duplicate URLs at a false-positive rate lower than 0.005. The combination of the proposed algorithm that eliminates inter-site replicas with algorithms that eliminate intra-site replicas enables a reduction up to 21% in duplicate URLs.
dc.identifier.uri	https://hdl.handle.net/1843/2336
dc.language	por
dc.publisher	Universidade Federal de Minas Gerais
dc.rights	Acesso aberto
dc.rights	Acesso aberto
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/br/
dc.subject	Computação - Teses
dc.subject	Aprendizado do computador - Teses
dc.subject.other	Réplicas de sítios
dc.subject.other	Aprendizado de máquina
dc.subject.other	Maximização de expectativas
dc.subject.other	Pareto
dc.title	Detecção de réplicas de sítios web usando aprendizado semi-supervisionado baseado em maximização de expectativas
dc.title.alternative	Detection of website replicas using expectation-maximization based semi-supervised learning
dc.type	Dissertação de mestrado
local.contributor.advisor-co1	Adriano Alonso Veloso
local.contributor.advisor-co1Lattes	http://lattes.cnpq.br/9973021912226739
local.contributor.advisor1	Nivio Zivian
local.contributor.advisor1Lattes	http://lattes.cnpq.br/3527197809276361
local.contributor.referee1	Edleno Silva de Moura
local.contributor.referee1	Rodrygo Luis Teodoro Santos
local.creator.Lattes	http://lattes.cnpq.br/2329868781518505
local.description.resumo	A Web contém um imenso repositório de informações. De acordo com a literatura, aproximadamente 29% desse repositório contém conteúdo duplicado. A duplicação de conteúdo pode ocorrer dentro de um mesmo sítio web (intra-sítios) ou entre sítios diferentes (inter-sítios). Esta dissertação trata do problema de detecção de réplicas inter-sítios. Neste trabalho, esse problema é tratado como uma tarefa de classificação, onde exemplos positivos e negativos de réplicas são utilizados no treinamento de um classificador binário. O método proposto utiliza um algoritmo de aprendizado semi-supervisionado baseado em Maximização de Expectativas (do inglês Expectation-Maximization - EM). O algoritmo EM é um método iterativo que permite a estimativa de parâmetros em modelos probabilísticos com dados latentes ou não observados. No caso de detecção de réplicas, há uma facilidade de encontrar exemplos óbvios de réplicas e não réplicas. O algoritmo EM é utilizado para encontrar exemplos não óbvios e formar um conjunto de treino para o algoritmo de classificação sem o custo de uma rotulação manual. É possível melhorar substancialmente a qualidade dos resultados obtidos com a combinação de classificadores através da exploração de um conceito central da Economia, a Eficiência de Pareto. O algoritmo proposto provê ganhos significativos em relação ao estado-da-arte em detecção de réplicas de sítios. A combinação do algoritmo proposto que elimina réplicas inter-sítios junto a algoritmos que eliminam réplicas de conteúdo intra-sítios pode levar a uma solução mais completa, possibilitando uma redução mais efetiva do número de URLs duplicadas na coleção.
local.identifier.orcid	https://orcid.org/0009-0006-9595-6145
local.publisher.country	Brasil
local.publisher.department	ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initials	UFMG
local.publisher.program	Programa de Pós-Graduação em Ciência da Computação
local.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: Dissertacao_Atualizada_ppgccufmg.pdf
Tamanho:: 1.12 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.07 KB
Formato:: Item-specific license agreed to upon submission
Descrição:

Baixar

Coleções

Pós-Graduação em Ciência da Computação - Dissertações