Desenvolvimento de ferramentas bioinformáticas para estudos de associação em escala genômica
Carregando...
Arquivos
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Tese de doutorado
Título alternativo
Primeiro orientador
Membros da banca
Resumo
O Projeto EPIGEN-Brasil é uma das maiores iniciativas latino-americanas em
epidemiologia genômica e genômica populacional e tem como objetivo principal entender a
associação entre caracteres complexos e variantes genéticas nas populações brasileiras, que
possuem um alto nível de miscigenação. Esta tese descreve dois projetos realizados no
âmbito do Projeto EPIGEN-Brasil. O primeiro projeto se trata do desenvolvimento de um
painel de imputação para populações miscigenadas latino-americanas. A imputação de
genótipos é uma das principais etapas de estudos de associação em escala genômica
(GWAS), no entanto, a eficácia da imputação depende da correspondência entre os dados
genotipados e o painel de imputação utilizado. Como os painéis de imputação disponíveis
não possuem dados de populações miscigenadas, os experimentos de imputação podem
inserir erroneamente variantes devido à falta de correspondência entre os dados
genotipados e os painéis de referência disponíveis. O painel de imputação desenvolvido
consiste na fusão dos dados de 4.3 milhões de SNPs (Polimorfismo de Nucleotídeo Único)
para 265 indivíduos com o painel de imputação do 1000 Genomes Project (1KGP). Após
comparar a eficiência do nosso painel com a do 1KGP, verificamos que nosso painel insere
140.452 SNPs a mais no total e produz 788.873 SNPs imputados com alto valor de
qualidade quando comparado ao uso do painel 1KGP, aumentando significativamente a
eficácia da imputação. O segundo projeto aqui apresentado consiste no desenvolvimento do
NAToRA (Network Algorithm To Relatedness Analysis), uma ferramenta concebida para
minimizar o parentesco em amostras aparentadas. Essa ferramenta utiliza técnicas de
grafos, redes complexas e estimativas de parentesco para realizar exclusões sucessivas de
indivíduos baseada em métricas de centralidade visando diminuir o parentesco de amostras
populacionais e, ao mesmo tempo, reduzindo a perda amostral. A partir de testes realizados
em dados simulados e reais, observamos que a centralidade de grau de nó produziu
melhores resultados. Além disso, averiguamos que a redução do parentesco pelo NAToRA
gerou baixo impacto na diversidade genética das subamostras geradas, quando comparado
com as amostras originais. Implementamos também uma funcionalidade ao método que
permite a geração de conjuntos de indivíduos não aparentados que podem ser analisados
sem a necessidade de excluir nenhum indivíduo da amostra original.
Abstract
The EPIGEN-Brazil Project is one of the biggest Latin American initiatives in genomic
epidemiology and population genomics and its main objective is to understand the
association between complex traits and genetic variants in Brazilian populations, which has
a high level of admixture. This thesis describes two projects developed within the scope of
the EPIGEN-Brazil Project. The first project describes the development of an imputation
panel for Latin American admixed populations. Genotype imputation is one of the main
steps of genome-wide association studies (GWAS), however, the imputation efficiency
depends on the match between the genotyped data and the imputation panel used. As the
imputation panels available do not have data of admixed populations, the imputation
experiments can insert variants erroneously due to mismatches between the genotyped data
and the available reference panels. Our developed imputation panel consists in fusion data
from 4.3 million SNPs to 265 individuals with the imputation panel of the 1000 Genomes
Project (1KGP). After comparing the efficiency of our panel with that of the 1KGP we
found that our panel inserts 140,452 SNPs (Single Nucleotide Polimorphism) more in total
and produces 788,873 SNPs imputed with high quality value when compared to results
panel of 1KGP, increasing the efficiency of the imputation. The second project presented
here consists in the development of NAToRA (Network Algorithm To Relatedness
Analysis), a tool designed to minimize the relationship in related samples. This tool uses
graph and complex networks theory and relationship measures to perform successive
exclusions of individuals based on centrality metrics to reduce the relationship of
population samples and, at the same time, avoiding large sample loss. From tests performed
on simulated and real data, we observed that the node degree centrality produced better
results. Furthermore, we found that the reduction of kinship by NAToRA produced low
impact on the genetic diversity of the generated subsamples when compared to the original
samples. We also implemented a method that allows the generation of sets of unrelated
individuals that can be analyzed without the need to exclude any individual from the
original sample.
Assunto
Biologia computacional, Estudo de associação genômica ampla, Miscigenação
Palavras-chave
Bioinformática
Citação
Departamento
Endereço externo
Avaliação
Revisão
Suplementado Por
Referenciado Por
Licença Creative Commons
Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso Aberto
