Exploiting entities for query expansion

Wladmir Cardoso Brandao

Use este identificador para citar ou linkar para este item: http://hdl.handle.net/1843/ESBF-9GMJW2

Tipo:	Tese de Doutorado
Título:	Exploiting entities for query expansion
Autor(es):	Wladmir Cardoso Brandao
Primeiro Orientador:	Nivio Ziviani
Primeiro membro da banca :	Adriano Alonso Veloso
Segundo membro da banca:	Edleno Silva de Moura
Terceiro membro da banca:	Mariano P Consens
Quarto membro da banca:	Rodrygo Luis Teodoro Santos
Quinto membro da banca:	Viviane Pereira Moreira
Resumo:	Uma fração substancial de consultas submetidas às máquinas de busca na web fazem referência a entidades, como pessoas, organizações e locais. No presente trabalho, nós propomos abordagens orientadas a entidade para expansão de consulta que exploram aspectos semânticos em bases de conhecimento para derivar evidências discriminativas de termos e técnicas de aprendizagem de máquina, com o intuito de combinar de maneira efetiva as evidências a fim de se obter um ranking de termos candidatos para expansão. Particularmente, nossa abordagem supervisionada (UQEE) utiliza-se de evidências derivadas da estrutura semântica implícita em templates de infoboxes em artigos da Wikipedia, enquanto nossa abordagem de aprendizagem para ranking (L2EE) considera evidências semânticas derivadas do conteúdo de campos de artigos da Wikipedia para automaticamente rotular exemplos de treino proporcionalmente à efetividade observada na recuperação. Além disso, nós propomos uma abordagem auto-supervisionada para geração automática de infoboxes para artigos da Wikipedia (WAVE). Experimentos comprovam a efetividade de nossas abordagens, com ganhos significativos comparados às abordagens estado-da-arte em pseudo-relevance feedback (PRF) e PRF baseados em entidades.
Abstract:	A substantial fraction of web search queries contain references to entities, such as persons, organizations, and locations. In this work, we propose entity-oriented query expansion approaches that exploit semantic sources of evidence devising discriminative term features and machine learning techniques that effectively combines these features to rank candidate expansion terms. Particularly, our unsupervised approach (UQEE) uses taxonomic features devised by the semantic structure implicitly provided by infobox templates, while our learning to rank approach (L2EE) considers semantic evidence encoded in the content of Wikipedia article fields to automatically labels training examples proportionally to their observed retrieval effectiveness. Lastly, we propose a self-supervised approach to autonomously generate infoboxes for Wikipedia articles (WAVE). Experiments attest the effectiveness of our approaches, with significantly gains compared to state-of-the-art PRF and ePRF approaches.
Assunto:	Aprendizado por computador Computação Sistemas de recuperação de informação
Idioma:	Inglês
Editor:	Universidade Federal de Minas Gerais
Sigla da Instituição:	UFMG
Tipo de Acesso:	Acesso Aberto
URI:	http://hdl.handle.net/1843/ESBF-9GMJW2
Data do documento:	18-Nov-2013
Aparece nas coleções:	Teses de Doutorado

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
wladmircardosobrandao.pdf		1.78 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas