Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/ESBF-9TENX8
Type: Dissertação de Mestrado
Title: Detecção de réplicas de sítios web usando aprendizado semissupervisionado baseado em maximização de expectativas
Authors: Cristiano Rodrigues de Carvalho
First Advisor: Nivio Ziviani
First Co-advisor: Adriano Alonso Veloso
First Referee: Adriano Alonso Veloso
Second Referee: Edleno Silva de Moura
Third Referee: Rodrygo Luis Teodoro Santos
Abstract: A Web é um imenso repositório de informações. De acordo com a literatura aproximadamente 29% desse repositório contém conteúdo duplicado. A duplicação de conteúdo pode ocorrer dentro de um mesmo sítio web (intrassítios) ou entre sítios diferentes (intersítios). Esta dissertação trata do problema de detecção de réplicas intersítios. Neste trabalho, esse problema é tratado como uma tarefa de classificação, onde exemplos positivos e negativos de réplicas são utilizados no treinamento de um classificador binário. O método proposto utiliza um algoritmo de aprendizado semissupervisionado baseado em Maximização de Expectativas (do inglês Expectation-Maximization - EM). O algoritmo EM é um método iterativo que permite a estimativa de parâmetros em modelos probabilísticos com dados latentes ou não observados. No caso de detecção de réplicas há uma facilidade de encontrar exemplos óbvios de réplicas e não réplicas. Nesse caso, o algoritmo EM é utilizado para encontrar exemplos não óbvios e formar um conjunto de treino para o algoritmo de classificação sem nenhum custo de uma rotulação manual. É possível melhorar substancialmente a qualidade dos resultados obtidos com a combinação de classificadores através da exploração de um conceito da Economia, a Eficiência de Pareto. Mais especificamente, essa técnica permite a escolha de resultados que se sobressaem em pelo menos um dos classificadores utilizados. O algoritmo proposto provê ganhos significativos em relação ao estado-da-arte em detecção de réplicas de sítios. A combinação do algoritmo proposto que elimina réplicas intersítios junto a algoritmos que eliminam réplicas de conteúdo intrassítios leva a uma solução mais completa, possibilitando uma redução mais efetiva do número de URLs duplicadas na coleção.
Abstract: The Web contains a vast repository of information. According to the literature about 29% of this repository contains duplicate content. Duplication of content may occur within a single web site (intra-site) or between different web sites (inter-site). This thesis addresses the problem of detecting inter-site replicas. In this work, this problem is treated as a classification task, where positive and negative replica examples are used to train a binary classifier. The proposed method uses a semi-supervised learning algorithm based on the Expectation-Maximization (EM) approach. The EM algorithm is an iterative method that allows estimation of parameters in probabilistic models with latent or unobserved data. In replica detection, it is easy to find obvious replica and non-replica examples. The EM algorithm is used to find non-obvious examples and form a training set for the classification algorithm at no cost of manual labeling. It is possible to substantially improve the quality of the results obtained with the combination of classifiers by exploring a central concept of Economics, the Pareto efficiency. More specifically, this technique allows to choose results that excel in at least one of the classifiers used. The proposed algorithm provides significant gains compared to state-of-art in detection of website replicas. The combination of proposed algorithm that eliminates inter-site replicas with algorithms that eliminate intra-sites replica content leads to a more complete solution allowing an effective reduction in the number of duplicated URLs on the collection.
Subject: Aprendizado do computador
Computação
language: Português
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/ESBF-9TENX8
Issue Date: 19-Sep-2014
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
cristianorodriguescarvalho.pdf756.25 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.