Processamento de consultas baseadas em palavras-chave sobre fluxos XML

Evandrino Gomes Barros

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/ESBF-92EFZ9

Type:	Tese de Doutorado
Title:	Processamento de consultas baseadas em palavras-chave sobre fluxos XML
Authors:	Evandrino Gomes Barros
First Advisor:	Alberto Henrique Frade Laender
First Co-advisor:	Mirella Moura Moro
First Referee:	Mirella Moura Moro
Second Referee:	Carlos Alberto Heuser
Third Referee:	Clodoveu Augusto Davis Junior
metadata.dc.contributor.referee4:	Marco Antonio Casanova
metadata.dc.contributor.referee5:	Marta Lima de Queiros Mattoso
Abstract:	Fluxos de dados XMLtornaram-se um relevante tema de pesquisa devido ao uso ge-neralizado de aplicações Web em tempo real, tais como notícias on-line e RSS feeds. Esses fluxos devem ser processados rapidamente e sem retenção. Aplicações sobre fluxos XML tornam-se complexas quando milhares de consultas devem ser processadas simultaneamente. Diferentes abordagens exploram o processamento simultâneo de con-sultas sobre fluxos XML. No entanto, elas são baseadas em linguagens estruturadas, tais como XPath e XQuery. Essas linguagens exigem conhecimento de suas sintaxes e doesquema de dados envolvido para a formulação de consultas. Palavras-chave são uma alternativa informal para submeter consultas a aplicações sobre fluxos XML, pois re-querem conhecimento mínimo do esquema de dados. Abordagens existentes, baseadas em palavras-chave, se concentram em melhorar o desempenho do processamento de consultas, mas geralmente envolvem documentos XML arquivados e estruturas auxi-liares, tais como índices. Abordagens mais recentes concentram-se em algoritmos para palavras-chave sobre fluxos XML ou processam uma única consulta por vez. A maioria dos algoritmos para processamento de consultas baseadas em palavras-chave considera a semântica do menor ancestral comum (LCA - Lowest Common Ancestor ). Especi-ficamente, o nó LCA de dois nós em uma árvore XML é o ancestral desses nós mais distante da raiz. Os algoritmos LCA mais populares são baseados nas semânticas SLCA(Smallest LCA) e ELCA (Exclusive LCA). ELCA lida com a ambiguidade que pode ex-istir em um documento XML pois uma palavra-chave pode ocorrer em diferentes níveis. As abordagens anteriores não suportam os grandes desafios para os novos cenários das aplicações sobre fluxos XML que são: (i) o processamento eficiente de milhares de consultas e (ii) desconhecimento os esquemas de dados envolvidos. Por isso, propomos novos algoritmos de processamento de múltiplas consultas baseadas em palavras-chave sobre fluxos XML. Os algoritmos exploram propriedades do processamento de fluxos e utilizam técnicas para melhorar o desempenho do processamento. Além disso, propo-mos estratégias para o ranking dos resultados. Experimentos abrangentes avaliam desempenho, escalabilidade e acurácia dos algoritmos e mostram que os mesmos são alternativas eficientes para serviços de consulta sobre fluxos XML.
Abstract:	XML streams have become a relevant research topic due to the widespread use of appli-cations such as online news, RSS feeds, and dissemination systems. Such streams must be processed rapidly and without retention. Retaining streams could cause data loss due to the large data traffic in continuous processing. This context becomes more com-plex when thousands of queries must be evaluated simultaneously. Different approaches explore simultaneous multiple query processing. However, they are based on structured languages such as XPath and XQuery, which require knowledge of their syntax and the data structure to formulate queries. Keyword-based language is a usual approach tosubmit queries informally, because they require minimal or no schema knowledge to formulate queries. Some approaches focus on improving search performance, but only in archived XML documents. More recent techniques have focused on keyword-based search algorithms for XML streams, but they only run one query at a time. Most of the keyword-based algorithms consider the lowest common ancestor (LCA) semantics. Themost popular LCA-based algorithms use the smallest LCA (SLCA) and the exclusive LCA (ELCA) semantics. Particularly, ELCA handles the ambiguity that might exist in an XML document since the same content can occur at different levels, such as key-words that correspond to XML labels occurring in different schema elements. Thus, ELCA is considered one of the most effective semantics because it returns a larger number of results. However, previous approaches do not support the major challenges in the new stream application scenarios. These challenges involve (i) the efficient pro-cessing of thousands of user queries over XML streams and (ii) the relief of users from knowing the source schemas when accessing ambiguous or heterogeneous data sources. To address these challenges, in this thesis, we propose new algorithms for processing multiple keyword queries over XML streams. The algorithms explore stream process-ing properties based on the LCA semantics and provide optimized methods to improve the overall performance. In addition, we propose strategies for ranking query results over XML streams. A comprehensive set of experiments thoroughly evaluates several aspects related to performance, scalability and accuracy of our algorithms, showing that our algorithms are efficient alternatives to search services over XML streams.
Subject:	Computação
language:	Inglês
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
Rights:	Acesso Aberto
URI:	http://hdl.handle.net/1843/ESBF-92EFZ9
Issue Date:	22-Nov-2012
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
evandrinogomesbarros.pdf		2.95 MB	Adobe PDF	View/Open

Show full item record