Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/35077
Type: Tese
Title: Desenvolvimento de ferramentas bioinformáticas para estudos de associação em escala genômica
Authors: Thiago Peixoto Leal
First Advisor: Eduardo Martín Tarazona Santos
First Co-advisor: Mateus Henrique Gouveia
Abstract: O Projeto EPIGEN-Brasil é uma das maiores iniciativas latino-americanas em epidemiologia genômica e genômica populacional e tem como objetivo principal entender a associação entre caracteres complexos e variantes genéticas nas populações brasileiras, que possuem um alto nível de miscigenação. Esta tese descreve dois projetos realizados no âmbito do Projeto EPIGEN-Brasil. O primeiro projeto se trata do desenvolvimento de um painel de imputação para populações miscigenadas latino-americanas. A imputação de genótipos é uma das principais etapas de estudos de associação em escala genômica (GWAS), no entanto, a eficácia da imputação depende da correspondência entre os dados genotipados e o painel de imputação utilizado. Como os painéis de imputação disponíveis não possuem dados de populações miscigenadas, os experimentos de imputação podem inserir erroneamente variantes devido à falta de correspondência entre os dados genotipados e os painéis de referência disponíveis. O painel de imputação desenvolvido consiste na fusão dos dados de 4.3 milhões de SNPs (Polimorfismo de Nucleotídeo Único) para 265 indivíduos com o painel de imputação do 1000 Genomes Project (1KGP). Após comparar a eficiência do nosso painel com a do 1KGP, verificamos que nosso painel insere 140.452 SNPs a mais no total e produz 788.873 SNPs imputados com alto valor de qualidade quando comparado ao uso do painel 1KGP, aumentando significativamente a eficácia da imputação. O segundo projeto aqui apresentado consiste no desenvolvimento do NAToRA (Network Algorithm To Relatedness Analysis), uma ferramenta concebida para minimizar o parentesco em amostras aparentadas. Essa ferramenta utiliza técnicas de grafos, redes complexas e estimativas de parentesco para realizar exclusões sucessivas de indivíduos baseada em métricas de centralidade visando diminuir o parentesco de amostras populacionais e, ao mesmo tempo, reduzindo a perda amostral. A partir de testes realizados em dados simulados e reais, observamos que a centralidade de grau de nó produziu melhores resultados. Além disso, averiguamos que a redução do parentesco pelo NAToRA gerou baixo impacto na diversidade genética das subamostras geradas, quando comparado com as amostras originais. Implementamos também uma funcionalidade ao método que permite a geração de conjuntos de indivíduos não aparentados que podem ser analisados sem a necessidade de excluir nenhum indivíduo da amostra original.
Abstract: The EPIGEN-Brazil Project is one of the biggest Latin American initiatives in genomic epidemiology and population genomics and its main objective is to understand the association between complex traits and genetic variants in Brazilian populations, which has a high level of admixture. This thesis describes two projects developed within the scope of the EPIGEN-Brazil Project. The first project describes the development of an imputation panel for Latin American admixed populations. Genotype imputation is one of the main steps of genome-wide association studies (GWAS), however, the imputation efficiency depends on the match between the genotyped data and the imputation panel used. As the imputation panels available do not have data of admixed populations, the imputation experiments can insert variants erroneously due to mismatches between the genotyped data and the available reference panels. Our developed imputation panel consists in fusion data from 4.3 million SNPs to 265 individuals with the imputation panel of the 1000 Genomes Project (1KGP). After comparing the efficiency of our panel with that of the 1KGP we found that our panel inserts 140,452 SNPs (Single Nucleotide Polimorphism) more in total and produces 788,873 SNPs imputed with high quality value when compared to results panel of 1KGP, increasing the efficiency of the imputation. The second project presented here consists in the development of NAToRA (Network Algorithm To Relatedness Analysis), a tool designed to minimize the relationship in related samples. This tool uses graph and complex networks theory and relationship measures to perform successive exclusions of individuals based on centrality metrics to reduce the relationship of population samples and, at the same time, avoiding large sample loss. From tests performed on simulated and real data, we observed that the node degree centrality produced better results. Furthermore, we found that the reduction of kinship by NAToRA produced low impact on the genetic diversity of the generated subsamples when compared to the original samples. We also implemented a method that allows the generation of sets of unrelated individuals that can be analyzed without the need to exclude any individual from the original sample.
Subject: Biologia computacional
Estudo de associação genômica ampla
Miscigenação
language: por
metadata.dc.publisher.country: Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.department: ICB - INSTITUTO DE CIÊNCIAS BIOLOGICAS
metadata.dc.publisher.program: Programa de Pós-Graduação em Bioinformatica
Rights: Acesso Aberto
metadata.dc.rights.uri: http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
URI: http://hdl.handle.net/1843/35077
Issue Date: 30-Oct-2018
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
Tese_ThiagoPeixotoLeal.pdf9.82 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons