Novas abordagens para integração de bancos de dados e desenvolvimento de ferramentas bioinformáticas para estudos de genética de populações

dc.creatorGiordano Bruno Soares Souza
dc.date.accessioned2021-01-12T14:09:49Z
dc.date.accessioned2025-09-09T01:31:32Z
dc.date.available2021-01-12T14:09:49Z
dc.date.issued2014-04-02
dc.description.abstractGenetic diversity is associated with the phenotypic differentiation among human populations. Even if most human diversity occurs within populations and the interaction with the environment is crucial to determine the phenotype, the study of variants that differentiated between human populations is essential in evolutionary studies and biomedical research. However, the analytical tools and data are heterogeneous in biology, reinforcing the need for new approaches to pipeline construction and tools that allow researchers to deal with the large amount and diversity of data and analyzes. In this work, we describe bioinformatics tools developed in the Laboratory of Human Genetic Diversity of the UFMG with the involvement of the PhD candidate: these tools include analyses pipelines and the bioinformatics platform DivergenomeTools that allows file conversions through a flexible pipeline. These tools have been applied in three articles on genetic diversity of native and admixture populations of Latin America, and for the identification of 69891 polymorphisms (SNPs) highly differentiated in Native American populations in respect to the West Africa, Europe and East Asia populations. These genetic variants were annotated using the database integration tool MASSA (Multi-Agent System for SNP Annotation), developed by the PhD candidate. Based on multi-agent technology, MASSA allows parallel and cooperative execution of tasks, bypassing the problem of the distribution, size and heterogeneity of the biological data. MASSA current version integrates information from these databases: dbSNP (SNP repository), UCSC (genomics), GO (ontologies), HGNC (gene names repository), OMIM (phenotypes), PGKB (pharmacogenetics), Reactome (metabolic pathways) and PolyPhen/SIFT/Provean (functional impact of nucleotide substitutions). Through the enrichment analysis performed by MASSA, we identified enriched terms in the annotation of differentiated genes in Native American. These analyzes confirmed previous knowledge on the genetic structure of natives, such as: high diversity in polymorphisms associated with type 2 diabetes and evidence of positive selection in genes involved in immune response and nervous system activity. We also identified new insights such as genes involved in the production of ionotropic membrane receptors related to the efficacy of treatment and severity of cognitive phenotypes; and nucleoporins associated with viral infection and carbohydrate transport. In perspective, we are improving the enrichment analysis, by implementing approaches that take into account the specificities of genomic diversity data and biological knowledge structure. These analyses allow us to enhance our knowledge of the biology of Native Americans, an ethnic group neglected in the initiatives for study of human genomic diversity, which is one of the focuses of the research of the LDGH.
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
dc.identifier.urihttps://hdl.handle.net/1843/34666
dc.languagepor
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/pt/
dc.subjectBiologia computacional
dc.subjectGrupo com ancestrais nativos do continente Americano
dc.subjectPolimorfismo de nucleotídeo único
dc.subjectCaracterísticas da população
dc.subject.otherNativo-americanos
dc.subject.otherFerramentas bioinformáticas
dc.subject.otherAnotação
dc.subject.otherAnálise de Enriquecimento
dc.subject.otherSNPs
dc.subject.otherSistema Multiagente
dc.subject.otherEstruturação Populacional
dc.titleNovas abordagens para integração de bancos de dados e desenvolvimento de ferramentas bioinformáticas para estudos de genética de populações
dc.typeTese de doutorado
local.contributor.advisor-co1Maíra Ribeiro Rodrigues
local.contributor.advisor1Eduardo Martin Tarazona Santos
local.contributor.advisor1Latteshttp://lattes.cnpq.br/6203097295718656
local.contributor.referee1Pedro Olmo Stancioli Vaz de Melo
local.contributor.referee1Renato Martins Assunção
local.contributor.referee1Emmanuel Dias Neto
local.contributor.referee1Nelson Jurandi Rosa Fagundes
local.creator.Latteshttp://lattes.cnpq.br/0190709428234975
local.description.resumoA variabilidade genética está associada à diferenciação fenotípica encontrada entre as populações humanas. Ainda que a maior parte da diversidade humana se dê dentro das populações humanas e a interação com o ambiente seja fundamental na determinação do fenótipo, a identificação de variantes genéticas muito diferenciadas entre populações humanas é essencial em estudos de evolução e biomédicos. Entretanto, as ferramentas analíticas e as fontes de dados são bastante heterogêneas, e faz-se necessário desenvolver ferramentas bioinformáticas acessíveis que permitam aos pesquisadores lidar com a grande quantidade e diversidade de dados e análises. O presente trabalho descreve ferramentas bioinformáticas desenvolvidas no Laboratório de Diversidade Genética Humana (LDGH) da UFMG com a participação do candidato a Doutor: estas incluem pipelines de análises e a plataforma bioinformática DivergenomeTools, que permite a conversão de arquivos através de pipelines flexíveis. Estas ferramentas foram aplicadas em três artigos sobre a diversidade genética de populações nativas e miscigenadas da América Latina, e na identificação de 69891 variantes genéticas (SNPs) altamente diferenciadas em populações Nativo-Americanas em relações às populações da Europa, África Ocidental e Leste Asiático. Estas variantes foram anotadas utilizando a ferramenta de integração de bancos de dados MASSA (Multi-Agent System for Snp Annotation), desenvolvida pelo candidato. Baseada na tecnologia de sistemas multi-agente, MASSA permite a execução de tarefas de forma paralela e cooperativa, contornando o problema da distribuição, tamanho e heterogeneidade dos dados biológicos. A versão atual de MASSA integra informações dos bancos de dados dbSNP (repositório de SNPs), UCSC (genômica), GO (ontologias), HGNC (repositório de nomenclaturas gênicas), OMIM (fenótipos), PGKB (farmacogenética), Reactome (vias metabólicas) e PolyPhen/SIFT/Provean (impacto funcional das substituições nucleotídicas). Através da análise de enriquecimento realizada por MASSA, identificaram-se termos sobrerrepresentados na anotação dos genes diferenciados em Nativo-Americanos. Estas análises confirmaram conhecimentos prévios sobre a estrutura genética destas populações, tais como: alta diversidade nos polimorfismos associados à diabetes tipo 2 e indícios de seleção positiva em genes implicados na resposta imune e na atividade do sistema nervoso. Além disso, permitiram identificar novas especificidades, como, por exemplo: grupos de genes diferenciados envolvidos na produção de receptores de membrana ionotrópicos associados à eficácia do tratamento e severidade de fenótipos cognitivos; e nucleoporinas associadas à susceptibilidade viral e transporte de carboidratos. Em perspectiva, estamos aprimorando as análises de enriquecimento, aplicando enfoques estatísticos e computacionais que considerem as especificidades dos dados de diversidade genômica e a estrutura do conhecimento biológico. Estas análises permitem aprimorar nossos conhecimentos sobre a biologia dos Nativos Americanos, um grupo étnico negligenciado nas iniciativas para o estudo da diversidade genômica humana e um dos focos das pesquisas do LDGH.
local.publisher.countryBrasil
local.publisher.departmentICB - INSTITUTO DE CIÊNCIAS BIOLOGICAS
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Bioinformatica

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
2014_tese_doutorado_giordano_bs_souza_bioinfo_novas_abordagens.pdf
Tamanho:
7.97 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Plain Text
Descrição: