Detecção de réplicas de sítios web usando aprendizado semi-supervisionado baseado em maximização de expectativas

dc.creatorCristiano Rodrigues de Carvalho
dc.date.accessioned2026-04-02T13:52:58Z
dc.date.issued2014-09-19
dc.description.abstractThe Web contains a vast repository of information. According to the literature about 29% of this repository contains duplicate content. Duplication of content may occur within a single web site (intra-site) or between different web sites (inter-site). This thesis addresses the problem of detecting inter-site replicas. In this work, this problem is treated as a classification task, where positive and negative replica examples are used to training a binary classifier. The proposed method uses a semi-supervised learning algorithm based on the Expectation- Maximization (EM) approach. The EM algorithm is an iterative method that allows estimation of parameters in probabilistic models with latent or not observed data. In replica detection is easy to find obvious replica and non-replica examples. The EM algorithm is used to find non-obvious examples. The complementarity from replicas and non-replicas examples is exploited through the concept of Pareto Efficiency. The algorithm used for classification of unknown examples during the EM process was the Lazy Associative Classifier (LAC). The LAC algorithm employs the concept of training projection, thus producing relevant subsets of examples for each test instance. The principle of entropy minimization is used to find the optimal parameter for label transitions considering each subset of examples. The experiments show that it is possible to achieve a reduction of 19% in the number of duplicate URLs at a false-positive rate lower than 0.005. The combination of the proposed algorithm that eliminates inter-site replicas with algorithms that eliminate intra-site replicas enables a reduction up to 21% in duplicate URLs.
dc.identifier.urihttps://hdl.handle.net/1843/2336
dc.languagepor
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso aberto
dc.rightsAcesso aberto
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/br/
dc.subjectComputação - Teses
dc.subjectAprendizado do computador - Teses
dc.subject.otherRéplicas de sítios
dc.subject.otherAprendizado de máquina
dc.subject.otherMaximização de expectativas
dc.subject.otherPareto
dc.titleDetecção de réplicas de sítios web usando aprendizado semi-supervisionado baseado em maximização de expectativas
dc.title.alternativeDetection of website replicas using expectation-maximization based semi-supervised learning
dc.typeDissertação de mestrado
local.contributor.advisor-co1Adriano Alonso Veloso
local.contributor.advisor-co1Latteshttp://lattes.cnpq.br/9973021912226739
local.contributor.advisor1Nivio Zivian
local.contributor.advisor1Latteshttp://lattes.cnpq.br/3527197809276361
local.contributor.referee1Edleno Silva de Moura
local.contributor.referee1Rodrygo Luis Teodoro Santos
local.creator.Latteshttp://lattes.cnpq.br/2329868781518505
local.description.resumoA Web contém um imenso repositório de informações. De acordo com a literatura, aproximadamente 29% desse repositório contém conteúdo duplicado. A duplicação de conteúdo pode ocorrer dentro de um mesmo sítio web (intra-sítios) ou entre sítios diferentes (inter-sítios). Esta dissertação trata do problema de detecção de réplicas inter-sítios. Neste trabalho, esse problema é tratado como uma tarefa de classificação, onde exemplos positivos e negativos de réplicas são utilizados no treinamento de um classificador binário. O método proposto utiliza um algoritmo de aprendizado semi-supervisionado baseado em Maximização de Expectativas (do inglês Expectation-Maximization - EM). O algoritmo EM é um método iterativo que permite a estimativa de parâmetros em modelos probabilísticos com dados latentes ou não observados. No caso de detecção de réplicas, há uma facilidade de encontrar exemplos óbvios de réplicas e não réplicas. O algoritmo EM é utilizado para encontrar exemplos não óbvios e formar um conjunto de treino para o algoritmo de classificação sem o custo de uma rotulação manual. É possível melhorar substancialmente a qualidade dos resultados obtidos com a combinação de classificadores através da exploração de um conceito central da Economia, a Eficiência de Pareto. O algoritmo proposto provê ganhos significativos em relação ao estado-da-arte em detecção de réplicas de sítios. A combinação do algoritmo proposto que elimina réplicas inter-sítios junto a algoritmos que eliminam réplicas de conteúdo intra-sítios pode levar a uma solução mais completa, possibilitando uma redução mais efetiva do número de URLs duplicadas na coleção.
local.identifier.orcidhttps://orcid.org/0009-0006-9595-6145
local.publisher.countryBrasil
local.publisher.departmentICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Ciência da Computação
local.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Dissertacao_Atualizada_ppgccufmg.pdf
Tamanho:
1.12 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Item-specific license agreed to upon submission
Descrição: