Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/37405
Type: Tese
Title: Genome-wide association studies in admixed Latin American populations.
Authors: Nathalia Matta Araujo
First Advisor: Eduardo Martin Tarazona Santos
First Co-advisor: Wagner Carlos Santos Magalhães
First Referee: Ana Lúcia Brunialti Godard
Second Referee: Jurandir Vieira de Magalhães
Third Referee: Carolina Bonilla Richero
metadata.dc.contributor.referee4: Antonio Augusto Franco Garcia
Abstract: Estudos de associação ao longo do genoma (GWAS) tem identificado muitos alelos associados a doenças e fenótipos humanos na última década. A identificação de genes e variantes causais para fenótipos complexos é importante para elucidar a base genética envolvida na patogênese das doenças e melhorar o tratamento, diagnóstico e prevenção. Contudo, os estudos GWAS tem sido predominantemente desenvolvidos em populações de origem européia. Estudos em outras populações são importantes para revelar novos loci de susceptibilidade e mecanismos etiológicos. Nesse contexto, a população brasileira é de especial interesse devido à sua natureza multirracial. A imputação genotípica é uma importante etapa em GWAS e é o processo de predizer ou imputar genótipos que não estão diretamente observados em uma amostra de indivíduos. Um de seus usos é para aumentar o poder do GWAS e ajudar a combinar resultados de estudos com diferentes plataformas de genotipagem para meta-análise. No entanto, pouco esforço tem sido gasto no desenvolvimento de painéis de referência que permitam uma imputação robusta em populações latino-americanas miscigenadas e poucos estudos tocaram neste tópico. Nosso objetivo ao longo dos projetos era fornecer GWAS mais robustos e eficazes com populações latino-americanas, através do desenvolvimento de um painel de referência de imputação para populações brasileiras miscigenadas e latino-americanas e um masterscript para organizar todas as tarefas do processo de imputação. Portanto, com base em dados de 4,3 milhões de SNPs de 265 indivíduos miscigenados da Iniciativa EPIGEN-Brasil, criamos um novo painel de referência de imputação combinando esses dados com dados do 1000 Genomes Project Phase 3 (1KGP). Em seguida, imputamos SNPs do novo painel proposto nos dados alvo, composto de 6,487 indivíduos genotipados para 2,5 milhões de SNPs, e analisamos os resultados para comparar o desempenho do nosso painel de referência proposto em relação ao painel público disponível (1KGP). Observamos que com o painel EPIGEN-5M+1KGP foram imputados 140.452 SNPs a mais no total e 788.873 SNPs adicionais com altos valores de probabilidade de serem os genótipos corretos (info score ≥ 0,8) do que quando usamos apenas o painel 1KGP. Portanto, o principal efeito da inclusão dos dados EPIGEN-5M na proposição de um novo painel de imputação não é apenas de obter mais SNPs, mas também de melhorar a qualidade da imputação. Além disso, o painel EPIGEN-5M+1KGP melhora a qualidade da imputação em relação ao 1KGP em uma ampla faixa de frequências alélicas. Também estamos participando de alguns consórcios de metanálise de GWAS com dados imputados e genotipados da Coorte de Bambuí do EPIGEN-Brasil. Nós realizamos um GWAS do intervalo PR para o consórcio CHARGE e observamos três picos importantes nos cromossomos 7, 12 e 14 nos resultados preliminares da análise de regressão. Os resultados serão meta-analisados em conjunto com outros GWAS.
Abstract: Genome-Wide Association Studies (GWAS) have identified many alleles associated with human diseases and traits in the last decade. The identification of genes and causal variants for complex phenotypes is important to elucidate the genetic basis involved in the pathogenesis of diseases and to improve treatment, diagnosis and prevention. However, GWAS studies have been predominantly developed in populations of European origin. Studies in other populations are important to reveal new susceptibility loci and etiological mechanisms. In this context, the Brazilian population is of special interest due to its multiracial nature. The genotype imputation is an important step in GWAS and is the process of predicting or imputing genotypes that are not directly typed in a sample of individuals. One of its uses is to increase the power of GWAS and help combining results of studies with different genotyping platforms for meta-analysis. Nevertheless, little effort has been expended in the development of reference panels that allow robust imputation in admixed Latin American populations and few studies had touched this topic. Our goal throughout the projects was to provide more robust and effective GWAS with Latin American populations by developing an imputation reference panel for Brazilian admixed and Latin American populations and a masterscript to organize all imputation process tasks. Thus, based on data of 4.3 million SNPs from 265 admixed individuals of the EPIGEN-Brazil Initiative, we created a new imputation reference panel combining these data with 1000 Genomes Project Phase 3 data (1KGP). We then imputed SNPs from the new proposed panel on a target dataset, composed of 6487 individuals genotyped for 2.5 million SNPs, and analysed the results to compare the performance of our proposed reference panel in relation to the public panel (1KGP) available. We observed that with the EPIGEN-5M+1KGP panel were imputed 140,452 more SNPs in total and 788,873 additional SNPs with high probability values of being the correct genotypes (info score ≥ 0.8) than when using the 1KGP panel alone. Thus, the major effect of the inclusion of the EPIGEN-5M dataset in the proposition of a new imputation panel is not only to gain more SNPs but also to improve the quality of imputation. Besides that, the EPIGEN-5M+1KGP panel improves imputation quality in respect to 1KGP across a wide range of allele frequencies. We are also participating of some consortia of meta-analysis of GWAS with imputed and genotyped data from EPIGEN-Brazil Bambuí Cohort. We performed a PR interval GWAS for The CHARGE consortium and observed three important peaks at chromosomes 7, 12, and 14 in the preliminary results of regression analysis. The results will be meta-analyzed together with other GWAS.
Subject: Epidemiologia genética
Estudos de Associação Genética
Bioinformática
language: por
metadata.dc.publisher.country: Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.department: ICB - DEPARTAMENTO DE BIOLOGIA GERAL
metadata.dc.publisher.program: Programa de Pós-Graduação em Genética
Rights: Acesso Aberto
metadata.dc.rights.uri: http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
URI: http://hdl.handle.net/1843/37405
Issue Date: 28-Jun-2018
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
Tese Nathalia - PósDefesa - FINAL.pdf9.17 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons