Otimização do ranking de documentos em máquinas de busca na web a partir da mineração de dados sensível a contextos

Joao Guilherme Rodrigues Gallo

Otimização do ranking de documentos em máquinas de busca na web a partir da mineração de dados sensível a contextos

Arquivos

jo_oguilhermerodriguesgallo.pdf (1.16 MB)

Data

2009-05-28

Autor(es)

Joao Guilherme Rodrigues Gallo

Editor

Universidade Federal de Minas Gerais

Tipo

Dissertação de mestrado

Primeiro orientador

Wagner Meira Junior

Membros da banca

Eduardo Alves do Valle Jrunior
Fabiano Cupertino Botelho
Marcos Andre Goncalves

Resumo

Neste trabalho apresentamos uma nova abordagem de ordenação de documentos de mecanismos de busca na web a partir da mineração de dados sensível a contextos. Sua originalidade apresenta-se, especialmente, na aplicação conjunta de estratégias anteriormente adotadas de maneira isolada: Primeiro, os padrões de correlação entre os termos são considerados e processados de maneira eficiente. Segundo, é utilizada uma técnica de mineração de dados chamada de regras de associação para a ponderação dos termos e criação de conjuntos de termos semanticamente relacionados. Terceiro, a identificação do conceito buscado pelo usuário a partir da correlação semântica entre os termos de todas as consultas realizadas por um usuário em uma sessão de buscas. Por último, todo o processo é realizado sem a solicitação explícita de informação extra ao usuário. Resultados experimentais mostram que nosso modelo aumenta a precisão média na coleção avaliada para todos os tipos de consulta, sem que o custo computacional do processo seja excessivo. Nossos resultados sugerem que o nosso modelo apresenta ganhos consideráveis também para coleções genéricas de textos disponíveis na Web.

Abstract

This work presents a new approach to rank documents in web search engines based on context sensitive data mining. It's novelty lies specially on the use of a set of previously used strategies which have not been put together yet: First, the correlation patterns among the terms are processed efficiently. Second, a data mining technique called association rules is used for creating semantic correlation of the terms. Third, the identification of the concept searched by the user is done based on terms submitted on a retrieval session. Finally, all the process is done without the explicit demand of extra information from the user. Experimental results show that our approach increases the average precision of the search results on the evaluated collections for all kinds of searches without a substantial increase of the process computational. Our results suggest that our model presents considerable gains for generic Web text collections

Assunto

Recuperação da informação, Computação, Mineração de dados (Computação)

Palavras-chave

Contextos, Recuperação da Informação, Mineração de Dados, Sessões de Busca

URI

https://hdl.handle.net/1843/ESBF-A8XQ6Q

Coleções

Pós-Graduação em Ciência da Computação - Dissertações

Página do item completo

Otimização do ranking de documentos em máquinas de busca na web a partir da mineração de dados sensível a contextos

Arquivos

Data

Autor(es)

Título da Revista

ISSN da Revista

Título de Volume

Editor

Descrição

Tipo

Título alternativo

Primeiro orientador

Membros da banca

Resumo

Abstract

Assunto

Palavras-chave

Citação

URI

Departamento

Curso

Endereço externo

Coleções

Avaliação

Revisão

Suplementado Por

Referenciado Por