Detecção de réplicas de sítios web usando aprendizado semissupervisionado baseado em maximização de expectativas
Carregando...
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Dissertação de mestrado
Título alternativo
Primeiro orientador
Membros da banca
Adriano Alonso Veloso
Edleno Silva de Moura
Rodrygo Luis Teodoro Santos
Edleno Silva de Moura
Rodrygo Luis Teodoro Santos
Resumo
A Web é um imenso repositório de informações. De acordo com a literatura aproximadamente 29% desse repositório contém conteúdo duplicado. A duplicação de conteúdo pode ocorrer dentro de um mesmo sítio web (intrassítios) ou entre sítios diferentes (intersítios). Esta dissertação trata do problema de detecção de réplicas intersítios. Neste trabalho, esse problema é tratado como uma tarefa de classificação, onde exemplos positivos e negativos de réplicas são utilizados no treinamento de um classificador binário. O método proposto utiliza um algoritmo de aprendizado semissupervisionado baseado em Maximização de Expectativas (do inglês Expectation-Maximization - EM). O algoritmo EM é um método iterativo que permite a estimativa de parâmetros em modelos probabilísticos com dados latentes ou não observados. No caso de detecção de réplicas há uma facilidade de encontrar exemplos óbvios de réplicas e não réplicas. Nesse caso, o algoritmo EM é utilizado para encontrar exemplos não óbvios e formar um conjunto de treino para o algoritmo de classificação sem nenhum custo de uma rotulação manual. É possível melhorar substancialmente a qualidade dos resultados obtidos com a combinação de classificadores através da exploração de um conceito da Economia, a Eficiência de Pareto. Mais especificamente, essa técnica permite a escolha de resultados que se sobressaem em pelo menos um dos classificadores utilizados. O algoritmo proposto provê ganhos significativos em relação ao estado-da-arte em detecção de réplicas de sítios. A combinação do algoritmo proposto que elimina réplicas intersítios junto a algoritmos que eliminam réplicas de conteúdo intrassítios leva a uma solução mais completa, possibilitando uma redução mais efetiva do número de URLs duplicadas na coleção.
Abstract
The Web contains a vast repository of information. According to the literature about 29% of this repository contains duplicate content. Duplication of content may occur within a single web site (intra-site) or between different web sites (inter-site). This thesis addresses the problem of detecting inter-site replicas. In this work, this problem is treated as a classification task, where positive and negative replica examples are used to train a binary classifier. The proposed method uses a semi-supervised learning algorithm based on the Expectation-Maximization (EM) approach. The EM algorithm is an iterative method that allows estimation of parameters in probabilistic models with latent or unobserved data. In replica detection, it is easy to find obvious replica and non-replica examples. The EM algorithm is used to find non-obvious examples and form a training set for the classification algorithm at no cost of manual labeling. It is possible to substantially improve the quality of the results obtained with the combination of classifiers by exploring a central concept of Economics, the Pareto efficiency. More specifically, this technique allows to choose results that excel in at least one of the classifiers used. The proposed algorithm provides significant gains compared to state-of-art in detection of website replicas. The combination of proposed algorithm that eliminates inter-site replicas with algorithms that eliminate intra-sites replica content leads to a more complete solution allowing an effective reduction in the number of duplicated URLs on the collection.
Assunto
Aprendizado do computador, Computação
Palavras-chave
Pareto, Maximização de expectativas, Aprendizado de máquina, Réplicas de sítios