Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/34666
Type: Tese
Title: Novas abordagens para integração de bancos de dados e desenvolvimento de ferramentas bioinformáticas para estudos de genética de populações
Authors: Giordano Bruno Soares Souza
First Advisor: Eduardo Martin Tarazona Santos
First Co-advisor: Maíra Ribeiro Rodrigues
First Referee: Pedro Olmo Stancioli Vaz de Melo
Second Referee: Renato Martins Assunção
Third Referee: Emmanuel Dias Neto
metadata.dc.contributor.referee4: Nelson Jurandi Rosa Fagundes
Abstract: A variabilidade genética está associada à diferenciação fenotípica encontrada entre as populações humanas. Ainda que a maior parte da diversidade humana se dê dentro das populações humanas e a interação com o ambiente seja fundamental na determinação do fenótipo, a identificação de variantes genéticas muito diferenciadas entre populações humanas é essencial em estudos de evolução e biomédicos. Entretanto, as ferramentas analíticas e as fontes de dados são bastante heterogêneas, e faz-se necessário desenvolver ferramentas bioinformáticas acessíveis que permitam aos pesquisadores lidar com a grande quantidade e diversidade de dados e análises. O presente trabalho descreve ferramentas bioinformáticas desenvolvidas no Laboratório de Diversidade Genética Humana (LDGH) da UFMG com a participação do candidato a Doutor: estas incluem pipelines de análises e a plataforma bioinformática DivergenomeTools, que permite a conversão de arquivos através de pipelines flexíveis. Estas ferramentas foram aplicadas em três artigos sobre a diversidade genética de populações nativas e miscigenadas da América Latina, e na identificação de 69891 variantes genéticas (SNPs) altamente diferenciadas em populações Nativo-Americanas em relações às populações da Europa, África Ocidental e Leste Asiático. Estas variantes foram anotadas utilizando a ferramenta de integração de bancos de dados MASSA (Multi-Agent System for Snp Annotation), desenvolvida pelo candidato. Baseada na tecnologia de sistemas multi-agente, MASSA permite a execução de tarefas de forma paralela e cooperativa, contornando o problema da distribuição, tamanho e heterogeneidade dos dados biológicos. A versão atual de MASSA integra informações dos bancos de dados dbSNP (repositório de SNPs), UCSC (genômica), GO (ontologias), HGNC (repositório de nomenclaturas gênicas), OMIM (fenótipos), PGKB (farmacogenética), Reactome (vias metabólicas) e PolyPhen/SIFT/Provean (impacto funcional das substituições nucleotídicas). Através da análise de enriquecimento realizada por MASSA, identificaram-se termos sobrerrepresentados na anotação dos genes diferenciados em Nativo-Americanos. Estas análises confirmaram conhecimentos prévios sobre a estrutura genética destas populações, tais como: alta diversidade nos polimorfismos associados à diabetes tipo 2 e indícios de seleção positiva em genes implicados na resposta imune e na atividade do sistema nervoso. Além disso, permitiram identificar novas especificidades, como, por exemplo: grupos de genes diferenciados envolvidos na produção de receptores de membrana ionotrópicos associados à eficácia do tratamento e severidade de fenótipos cognitivos; e nucleoporinas associadas à susceptibilidade viral e transporte de carboidratos. Em perspectiva, estamos aprimorando as análises de enriquecimento, aplicando enfoques estatísticos e computacionais que considerem as especificidades dos dados de diversidade genômica e a estrutura do conhecimento biológico. Estas análises permitem aprimorar nossos conhecimentos sobre a biologia dos Nativos Americanos, um grupo étnico negligenciado nas iniciativas para o estudo da diversidade genômica humana e um dos focos das pesquisas do LDGH.
Abstract: Genetic diversity is associated with the phenotypic differentiation among human populations. Even if most human diversity occurs within populations and the interaction with the environment is crucial to determine the phenotype, the study of variants that differentiated between human populations is essential in evolutionary studies and biomedical research. However, the analytical tools and data are heterogeneous in biology, reinforcing the need for new approaches to pipeline construction and tools that allow researchers to deal with the large amount and diversity of data and analyzes. In this work, we describe bioinformatics tools developed in the Laboratory of Human Genetic Diversity of the UFMG with the involvement of the PhD candidate: these tools include analyses pipelines and the bioinformatics platform DivergenomeTools that allows file conversions through a flexible pipeline. These tools have been applied in three articles on genetic diversity of native and admixture populations of Latin America, and for the identification of 69891 polymorphisms (SNPs) highly differentiated in Native American populations in respect to the West Africa, Europe and East Asia populations. These genetic variants were annotated using the database integration tool MASSA (Multi-Agent System for SNP Annotation), developed by the PhD candidate. Based on multi-agent technology, MASSA allows parallel and cooperative execution of tasks, bypassing the problem of the distribution, size and heterogeneity of the biological data. MASSA current version integrates information from these databases: dbSNP (SNP repository), UCSC (genomics), GO (ontologies), HGNC (gene names repository), OMIM (phenotypes), PGKB (pharmacogenetics), Reactome (metabolic pathways) and PolyPhen/SIFT/Provean (functional impact of nucleotide substitutions). Through the enrichment analysis performed by MASSA, we identified enriched terms in the annotation of differentiated genes in Native American. These analyzes confirmed previous knowledge on the genetic structure of natives, such as: high diversity in polymorphisms associated with type 2 diabetes and evidence of positive selection in genes involved in immune response and nervous system activity. We also identified new insights such as genes involved in the production of ionotropic membrane receptors related to the efficacy of treatment and severity of cognitive phenotypes; and nucleoporins associated with viral infection and carbohydrate transport. In perspective, we are improving the enrichment analysis, by implementing approaches that take into account the specificities of genomic diversity data and biological knowledge structure. These analyses allow us to enhance our knowledge of the biology of Native Americans, an ethnic group neglected in the initiatives for study of human genomic diversity, which is one of the focuses of the research of the LDGH.
Subject: Biologia computacional
Grupo com ancestrais nativos do continente Americano
Polimorfismo de nucleotídeo único
Características da população
language: por
metadata.dc.publisher.country: Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.department: ICB - INSTITUTO DE CIÊNCIAS BIOLOGICAS
metadata.dc.publisher.program: Programa de Pós-Graduação em Bioinformatica
Rights: Acesso Aberto
metadata.dc.rights.uri: http://creativecommons.org/licenses/by/3.0/pt/
URI: http://hdl.handle.net/1843/34666
Issue Date: 2-Apr-2014
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
2014_tese_doutorado_giordano_bs_souza_bioinfo_novas_abordagens.pdf8.16 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons