Desenvolvimento de ferramentas bioinformáticas para estudos de associação em escala genômica

Thiago Peixoto Leal

Use este identificador para citar ou linkar para este item: http://hdl.handle.net/1843/35077

Tipo:	Tese
Título:	Desenvolvimento de ferramentas bioinformáticas para estudos de associação em escala genômica
Autor(es):	Thiago Peixoto Leal
Primeiro Orientador:	Eduardo Martín Tarazona Santos
Primeiro Coorientador:	Mateus Henrique Gouveia
Resumo:	O Projeto EPIGEN-Brasil é uma das maiores iniciativas latino-americanas em epidemiologia genômica e genômica populacional e tem como objetivo principal entender a associação entre caracteres complexos e variantes genéticas nas populações brasileiras, que possuem um alto nível de miscigenação. Esta tese descreve dois projetos realizados no âmbito do Projeto EPIGEN-Brasil. O primeiro projeto se trata do desenvolvimento de um painel de imputação para populações miscigenadas latino-americanas. A imputação de genótipos é uma das principais etapas de estudos de associação em escala genômica (GWAS), no entanto, a eficácia da imputação depende da correspondência entre os dados genotipados e o painel de imputação utilizado. Como os painéis de imputação disponíveis não possuem dados de populações miscigenadas, os experimentos de imputação podem inserir erroneamente variantes devido à falta de correspondência entre os dados genotipados e os painéis de referência disponíveis. O painel de imputação desenvolvido consiste na fusão dos dados de 4.3 milhões de SNPs (Polimorfismo de Nucleotídeo Único) para 265 indivíduos com o painel de imputação do 1000 Genomes Project (1KGP). Após comparar a eficiência do nosso painel com a do 1KGP, verificamos que nosso painel insere 140.452 SNPs a mais no total e produz 788.873 SNPs imputados com alto valor de qualidade quando comparado ao uso do painel 1KGP, aumentando significativamente a eficácia da imputação. O segundo projeto aqui apresentado consiste no desenvolvimento do NAToRA (Network Algorithm To Relatedness Analysis), uma ferramenta concebida para minimizar o parentesco em amostras aparentadas. Essa ferramenta utiliza técnicas de grafos, redes complexas e estimativas de parentesco para realizar exclusões sucessivas de indivíduos baseada em métricas de centralidade visando diminuir o parentesco de amostras populacionais e, ao mesmo tempo, reduzindo a perda amostral. A partir de testes realizados em dados simulados e reais, observamos que a centralidade de grau de nó produziu melhores resultados. Além disso, averiguamos que a redução do parentesco pelo NAToRA gerou baixo impacto na diversidade genética das subamostras geradas, quando comparado com as amostras originais. Implementamos também uma funcionalidade ao método que permite a geração de conjuntos de indivíduos não aparentados que podem ser analisados sem a necessidade de excluir nenhum indivíduo da amostra original.
Abstract:	The EPIGEN-Brazil Project is one of the biggest Latin American initiatives in genomic epidemiology and population genomics and its main objective is to understand the association between complex traits and genetic variants in Brazilian populations, which has a high level of admixture. This thesis describes two projects developed within the scope of the EPIGEN-Brazil Project. The first project describes the development of an imputation panel for Latin American admixed populations. Genotype imputation is one of the main steps of genome-wide association studies (GWAS), however, the imputation efficiency depends on the match between the genotyped data and the imputation panel used. As the imputation panels available do not have data of admixed populations, the imputation experiments can insert variants erroneously due to mismatches between the genotyped data and the available reference panels. Our developed imputation panel consists in fusion data from 4.3 million SNPs to 265 individuals with the imputation panel of the 1000 Genomes Project (1KGP). After comparing the efficiency of our panel with that of the 1KGP we found that our panel inserts 140,452 SNPs (Single Nucleotide Polimorphism) more in total and produces 788,873 SNPs imputed with high quality value when compared to results panel of 1KGP, increasing the efficiency of the imputation. The second project presented here consists in the development of NAToRA (Network Algorithm To Relatedness Analysis), a tool designed to minimize the relationship in related samples. This tool uses graph and complex networks theory and relationship measures to perform successive exclusions of individuals based on centrality metrics to reduce the relationship of population samples and, at the same time, avoiding large sample loss. From tests performed on simulated and real data, we observed that the node degree centrality produced better results. Furthermore, we found that the reduction of kinship by NAToRA produced low impact on the genetic diversity of the generated subsamples when compared to the original samples. We also implemented a method that allows the generation of sets of unrelated individuals that can be analyzed without the need to exclude any individual from the original sample.
Assunto:	Biologia computacional Estudo de associação genômica ampla Miscigenação
Idioma:	por
País:	Brasil
Editor:	Universidade Federal de Minas Gerais
Sigla da Instituição:	UFMG
Departamento:	ICB - INSTITUTO DE CIÊNCIAS BIOLOGICAS
Curso:	Programa de Pós-Graduação em Bioinformatica
Tipo de Acesso:	Acesso Aberto
metadata.dc.rights.uri:	http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
URI:	http://hdl.handle.net/1843/35077
Data do documento:	30-Out-2018
Aparece nas coleções:	Teses de Doutorado

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Tese_ThiagoPeixotoLeal.pdf		9.82 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons