Detecção de réplicas de sítios web usando aprendizado semi-supervisionado baseado em maximização de expectativas

Carregando...
Imagem de Miniatura

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Minas Gerais

Descrição

Tipo

Dissertação de mestrado

Título alternativo

Detection of website replicas using expectation-maximization based semi-supervised learning

Primeiro orientador

Membros da banca

Edleno Silva de Moura
Rodrygo Luis Teodoro Santos

Resumo

A Web contém um imenso repositório de informações. De acordo com a literatura, aproximadamente 29% desse repositório contém conteúdo duplicado. A duplicação de conteúdo pode ocorrer dentro de um mesmo sítio web (intra-sítios) ou entre sítios diferentes (inter-sítios). Esta dissertação trata do problema de detecção de réplicas inter-sítios. Neste trabalho, esse problema é tratado como uma tarefa de classificação, onde exemplos positivos e negativos de réplicas são utilizados no treinamento de um classificador binário. O método proposto utiliza um algoritmo de aprendizado semi-supervisionado baseado em Maximização de Expectativas (do inglês Expectation-Maximization - EM). O algoritmo EM é um método iterativo que permite a estimativa de parâmetros em modelos probabilísticos com dados latentes ou não observados. No caso de detecção de réplicas, há uma facilidade de encontrar exemplos óbvios de réplicas e não réplicas. O algoritmo EM é utilizado para encontrar exemplos não óbvios e formar um conjunto de treino para o algoritmo de classificação sem o custo de uma rotulação manual. É possível melhorar substancialmente a qualidade dos resultados obtidos com a combinação de classificadores através da exploração de um conceito central da Economia, a Eficiência de Pareto. O algoritmo proposto provê ganhos significativos em relação ao estado-da-arte em detecção de réplicas de sítios. A combinação do algoritmo proposto que elimina réplicas inter-sítios junto a algoritmos que eliminam réplicas de conteúdo intra-sítios pode levar a uma solução mais completa, possibilitando uma redução mais efetiva do número de URLs duplicadas na coleção.

Abstract

The Web contains a vast repository of information. According to the literature about 29% of this repository contains duplicate content. Duplication of content may occur within a single web site (intra-site) or between different web sites (inter-site). This thesis addresses the problem of detecting inter-site replicas. In this work, this problem is treated as a classification task, where positive and negative replica examples are used to training a binary classifier. The proposed method uses a semi-supervised learning algorithm based on the Expectation- Maximization (EM) approach. The EM algorithm is an iterative method that allows estimation of parameters in probabilistic models with latent or not observed data. In replica detection is easy to find obvious replica and non-replica examples. The EM algorithm is used to find non-obvious examples. The complementarity from replicas and non-replicas examples is exploited through the concept of Pareto Efficiency. The algorithm used for classification of unknown examples during the EM process was the Lazy Associative Classifier (LAC). The LAC algorithm employs the concept of training projection, thus producing relevant subsets of examples for each test instance. The principle of entropy minimization is used to find the optimal parameter for label transitions considering each subset of examples. The experiments show that it is possible to achieve a reduction of 19% in the number of duplicate URLs at a false-positive rate lower than 0.005. The combination of the proposed algorithm that eliminates inter-site replicas with algorithms that eliminate intra-site replicas enables a reduction up to 21% in duplicate URLs.

Assunto

Computação - Teses, Aprendizado do computador - Teses

Palavras-chave

Réplicas de sítios, Aprendizado de máquina, Maximização de expectativas, Pareto

Citação

Endereço externo

Avaliação

Revisão

Suplementado Por

Referenciado Por

Licença Creative Commons

Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso aberto