Abordagens evolucionárias para problemas relacionados a integração de dados

Moises Gomes de Carvalho

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/SLSS-7XGGSW

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Alberto Henrique Frade Laender	pt_BR
dc.contributor.advisor-co1	Marcos Andre Goncalves	pt_BR
dc.contributor.referee1	Altigran Soares da Silva	pt_BR
dc.contributor.referee2	Marco Antonio Casanova	pt_BR
dc.contributor.referee3	Ricardo da Silva Torres	pt_BR
dc.contributor.referee4	Nivio Ziviani	pt_BR
dc.contributor.referee5	Wagner Meira Junior	pt_BR
dc.creator	Moises Gomes de Carvalho	pt_BR
dc.date.accessioned	2019-08-10T18:00:36Z	-
dc.date.available	2019-08-10T18:00:36Z	-
dc.date.issued	2009-10-26	pt_BR
dc.identifier.uri	http://hdl.handle.net/1843/SLSS-7XGGSW	-
dc.description.abstract	Data integration aims to combine data from different sources (data repositories such as databases, digital libraries, etc.) by adopting a global data model and by detecting and resolving schema and data conflicts so that a homogeneous, unified view can be provided. Two specific problems related to data integration - schema matching and replica identification - present a large solution space. This space is computationally expensive and technically prohibitive to be intensively and exhaustively explored by traditional approaches. Moreover, the solutions for these problems usually require that multiple, sometimes conflicting, objectives must be simultaneously attended. This thesis aims to show that evolutionary-based techniques can be successfully applied to such problems, leading to novel approaches and methods that address all aforementioned requirements and, at the same time, provide efficient and high accuracy solutions. In this thesis, we first propose a genetic programming approach to record deduplication. This approach combines several different pieces of evidence extracted from the actual data present in the repositories to suggest a deduplication function that is able to identify whenever two entries in a repository are replicas or not. As shown by our experiments, our approach outperforms existing state-of-the-art methods found in the literature. Moreover, the suggested function is computationally less demanding since it uses fewer evidence. Finally, it is also important to notice that our approach is capable of automatically adapting to a given fixed replica identification boundary, freeing the user from the burden of having to choose and tune this parameter Based on the previous approach, we also devised a novel evolutionary approach that is able to automatically find complex schema matches. Our aim was to develop a method to find semantic relationships between schema elements, in a restricted scenario in which only the data instances are available. To the best of our knowledge, this is the first approach that is capable of discovering complex schema matches using only the data instances, which is performed by exploiting record deduplication and information retrieval techniques to find schema matches during the evolutionary process. To demonstrate the effectiveness of our approach, we conducted an experimental evaluation using real-world and synthetic datasets. Our results show that our approach is able to find complex matches with high accuracy, despite using only the data instances.	pt_BR
dc.description.resumo	Integração de dados tem como objetivo combinar dados de diferentes fontes (repositórios de dados tais como bibliotecas digitais e bancos de dados) por meio da adoção de um modelo de dados global e da detecção e resolução de problemas de conflito de esquemas e entre os dados armazenados, de modo a prover uma percepção/visão unificada ao usuário. Dois problemas específicos relacionados ao processo de integração de dados - deduplicação de registros e pareamento de esquemas - apresentam espaços de soluções muito vastos. Por esse motivo, explorar esses espaços da forma tradicional torna-se uma alternativa computacionalmente cara e tecnicamente inviável para se encontrar soluções. Além disso, as soluções para estes problemas exigem que objetivos múltiplos (e às vezes conflitantes) sejam atendidos simultaneamente. O objetivo desta tese é apresentar abordagens evolucionárias, como a programação genética, como ferramentas para solucionar tais problemas, levando a novas abordagens e métodos capazes de atender a todas essas exigências e ao mesmo tempo, prover soluções de alta eficiência e eficácia. O primeiro trabalho apresentado nesta tese propõe uma abordagem, baseada em programação genética, para deduplicação de registros. Essa abordagem combina diferentes evidências extraídas dos dados armazenados para sugerir funções de deduplicação capazes de identificar quando dois registros são réplicas ou não. Como demonstrado pelos experimentos realizados, nossa abordagem consegue superar métodos na literatura até então considerados como o estado-da-arte. Além disso, as funções de deduplicação sugeridas são eficientes, exigindo menos processamento, pois utilizam menos evidências. Finalmente, essa abordagem evolucionária é capaz de adaptar automaticamente as funções de deduplicação a qualquer valor de limiar de identificação de réplicas, poupando o usuário do trabalho de escolher e ajustar o valor desse parâmetro. A partir dos resultados obtidos pela abordagem anterior, também é proposta uma abordagem evolucionária para o problema de encontrar casamentos entre elementos de esquemas de repositórios de dados semanticamente relacionados (problema de pareamento de esquemas). O objetivo do nosso trabalho foi desenvolver uma abordagem capaz de encontrar casamentos de esquemas em uma situação adversa na qual informações sobre a estrutura do repositório não estão disponíveis. Esta abordagem é pioneira na tarefa de encontrar casamentos complexos usando somente os dados armazenados nos repositórios. Para encontrar casamentos complexos são utilizadas estratégias de busca, baseadas em técnicas de deduplicação de registros e de recuperação de informação, durante o processo evolucionário. Para demonstrar a eficácia de nossa abordagem, conduzimos uma avaliação experimental usando conjuntos de dados reais e sintéticos. Os resultados demonstram que a abordagem proposta é capaz de identificar casamentos complexos com grande precisão, apesar de fazer uso somente dos dados armazenados	pt_BR
dc.language	Português	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Programação genética	pt_BR
dc.subject	inetgração de dados	pt_BR
dc.subject	dedeplicação de registros	pt_BR
dc.subject.other	Programação genética (Computação	pt_BR
dc.subject.other	Computação	pt_BR
dc.subject.other	Programação (Computadores)	pt_BR
dc.title	Abordagens evolucionárias para problemas relacionados a integração de dados	pt_BR
dc.type	Tese de Doutorado	pt_BR
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
moisesgomescarvalho.pdf		1.75 MB	Adobe PDF	View/Open

Show simple item record