Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/SLSS-7XGGSW
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Alberto Henrique Frade Laenderpt_BR
dc.contributor.advisor-co1Marcos Andre Goncalvespt_BR
dc.contributor.referee1Altigran Soares da Silvapt_BR
dc.contributor.referee2Marco Antonio Casanovapt_BR
dc.contributor.referee3Ricardo da Silva Torrespt_BR
dc.contributor.referee4Nivio Zivianipt_BR
dc.contributor.referee5Wagner Meira Juniorpt_BR
dc.creatorMoises Gomes de Carvalhopt_BR
dc.date.accessioned2019-08-10T18:00:36Z-
dc.date.available2019-08-10T18:00:36Z-
dc.date.issued2009-10-26pt_BR
dc.identifier.urihttp://hdl.handle.net/1843/SLSS-7XGGSW-
dc.description.abstractData integration aims to combine data from different sources (data repositories such as databases, digital libraries, etc.) by adopting a global data model and by detecting and resolving schema and data conflicts so that a homogeneous, unified view can be provided. Two specific problems related to data integration - schema matching and replica identification - present a large solution space. This space is computationally expensive and technically prohibitive to be intensively and exhaustively explored by traditional approaches. Moreover, the solutions for these problems usually require that multiple, sometimes conflicting, objectives must be simultaneously attended. This thesis aims to show that evolutionary-based techniques can be successfully applied to such problems, leading to novel approaches and methods that address all aforementioned requirements and, at the same time, provide efficient and high accuracy solutions. In this thesis, we first propose a genetic programming approach to record deduplication. This approach combines several different pieces of evidence extracted from the actual data present in the repositories to suggest a deduplication function that is able to identify whenever two entries in a repository are replicas or not. As shown by our experiments, our approach outperforms existing state-of-the-art methods found in the literature. Moreover, the suggested function is computationally less demanding since it uses fewer evidence. Finally, it is also important to notice that our approach is capable of automatically adapting to a given fixed replica identification boundary, freeing the user from the burden of having to choose and tune this parameter Based on the previous approach, we also devised a novel evolutionary approach that is able to automatically find complex schema matches. Our aim was to develop a method to find semantic relationships between schema elements, in a restricted scenario in which only the data instances are available. To the best of our knowledge, this is the first approach that is capable of discovering complex schema matches using only the data instances, which is performed by exploiting record deduplication and information retrieval techniques to find schema matches during the evolutionary process. To demonstrate the effectiveness of our approach, we conducted an experimental evaluation using real-world and synthetic datasets. Our results show that our approach is able to find complex matches with high accuracy, despite using only the data instances.pt_BR
dc.description.resumoIntegração de dados tem como objetivo combinar dados de diferentes fontes (repositórios de dados tais como bibliotecas digitais e bancos de dados) por meio da adoção de um modelo de dados global e da detecção e resolução de problemas de conflito de esquemas e entre os dados armazenados, de modo a prover uma percepção/visão unificada ao usuário. Dois problemas específicos relacionados ao processo de integração de dados - deduplicação de registros e pareamento de esquemas - apresentam espaços de soluções muito vastos. Por esse motivo, explorar esses espaços da forma tradicional torna-se uma alternativa computacionalmente cara e tecnicamente inviável para se encontrar soluções. Além disso, as soluções para estes problemas exigem que objetivos múltiplos (e às vezes conflitantes) sejam atendidos simultaneamente. O objetivo desta tese é apresentar abordagens evolucionárias, como a programação genética, como ferramentas para solucionar tais problemas, levando a novas abordagens e métodos capazes de atender a todas essas exigências e ao mesmo tempo, prover soluções de alta eficiência e eficácia. O primeiro trabalho apresentado nesta tese propõe uma abordagem, baseada em programação genética, para deduplicação de registros. Essa abordagem combina diferentes evidências extraídas dos dados armazenados para sugerir funções de deduplicação capazes de identificar quando dois registros são réplicas ou não. Como demonstrado pelos experimentos realizados, nossa abordagem consegue superar métodos na literatura até então considerados como o estado-da-arte. Além disso, as funções de deduplicação sugeridas são eficientes, exigindo menos processamento, pois utilizam menos evidências. Finalmente, essa abordagem evolucionária é capaz de adaptar automaticamente as funções de deduplicação a qualquer valor de limiar de identificação de réplicas, poupando o usuário do trabalho de escolher e ajustar o valor desse parâmetro. A partir dos resultados obtidos pela abordagem anterior, também é proposta uma abordagem evolucionária para o problema de encontrar casamentos entre elementos de esquemas de repositórios de dados semanticamente relacionados (problema de pareamento de esquemas). O objetivo do nosso trabalho foi desenvolver uma abordagem capaz de encontrar casamentos de esquemas em uma situação adversa na qual informações sobre a estrutura do repositório não estão disponíveis. Esta abordagem é pioneira na tarefa de encontrar casamentos complexos usando somente os dados armazenados nos repositórios. Para encontrar casamentos complexos são utilizadas estratégias de busca, baseadas em técnicas de deduplicação de registros e de recuperação de informação, durante o processo evolucionário. Para demonstrar a eficácia de nossa abordagem, conduzimos uma avaliação experimental usando conjuntos de dados reais e sintéticos. Os resultados demonstram que a abordagem proposta é capaz de identificar casamentos complexos com grande precisão, apesar de fazer uso somente dos dados armazenadospt_BR
dc.languagePortuguêspt_BR
dc.publisherUniversidade Federal de Minas Geraispt_BR
dc.publisher.initialsUFMGpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectProgramação genéticapt_BR
dc.subjectinetgração de dadospt_BR
dc.subjectdedeplicação de registrospt_BR
dc.subject.otherProgramação genética (Computaçãopt_BR
dc.subject.otherComputaçãopt_BR
dc.subject.otherProgramação (Computadores)pt_BR
dc.titleAbordagens evolucionárias para problemas relacionados a integração de dadospt_BR
dc.typeTese de Doutoradopt_BR
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
moisesgomescarvalho.pdf1.75 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.