SNP LANE, uma base de dados de vizinhança de SNPs e análises do efeito dos nucleotídeos vizinhos na probabilidade de substituição de nucleotídeos em mamíferos

Fernanda Stussi Duarte Lage

Use este identificador para citar ou linkar para este item: http://hdl.handle.net/1843/30434

Tipo:	Dissertação
Título:	SNP LANE, uma base de dados de vizinhança de SNPs e análises do efeito dos nucleotídeos vizinhos na probabilidade de substituição de nucleotídeos em mamíferos
Autor(es):	Fernanda Stussi Duarte Lage
Primeiro Orientador:	José Miguel Ortega
Primeiro Coorientador:	Tetsu Sakamoto
Primeiro membro da banca :	Gerald Weber
Segundo membro da banca:	Sandro José de Souza
Resumo:	A dinâmica da composição do DNA dos genomas de vários táxons é uma das principais questões na análise genômica. Essas alterações podem ser consequências de erros de máquinas de replicação e reparo. A substituição de nucleotídeos, por exemplo, é um dos combustíveis na produção de variação genética e direciona a evolução. Essas substituições devem ocorrer aleatoriamente ao longo do genoma ao longo do tempo. Entretanto, análises recentes de dados genômicos, especialmente dados de SNP (Single Nucleotide Polymorphism), demonstraram várias características que sustentam a natureza não aleatória desse evento, como a alta variação na taxa de mutação ao longo do genoma. Estudos recentes mostraram que os componentes do genoma afetam os padrões de mutação até certo ponto, isto é, vieses de vizinhança de nucleotídeos intensos foram observados em posições imediatamente adjacentes a mutações e vieses menos pronunciados se estendem a regiões distantes do local de substituição. Esse fenômeno pode ser atribuído principalmente à enzima que modifica ou modifica o material genético, uma vez que a maioria das enzimas tende a ter contextos específicos de sequências que determinam sua atividade. Assim, a identificação de efeitos de contexto pode levar à descoberta de outros sites de edição ou fatores enzimáticos desconhecidos. Com o objetivo de investigar de forma abrangente esse evento, construímos um banco de dados on-line para mostrar o padrão de bases na vizinhança do SNP, disponível em: http://bioinfo.icb.ufmg.br/snplane/ utilizando os últimos conjuntos de dados SNP de 5 espécies diferentes de mamíferos (Mus musculus, Homo sapiens, Bos taurus, Rattus norvegicus e Sus scrofa) foram baixados e então analisados de acordo com a região genômica onde o SNP pertencia (intrón, exon, 5'UTR, 3'UTR e CDS) e classificados conforme o tipo de substituição: K, M, R, Y, W ou S. Para cada classe de SNP, as frequências de nucleotídeos foram calculadas para as primeiras cinco posições a montante e a jusante em torno do SNP. As frequências esperadas de nucleotídeos basais para as posições vizinhas ao SNP foram estimadas aleatoriamente, escolhendo posições no genoma e recuperando os nucleotídeos que o flanqueiam. Dois gráficos são apresentados para cada uma das 1200 situações distintas. Na maioria dos casos, a frequência basal não foi significativamente diferente dos dados observados, indicando que o efeito do nucleotídeo vizinho observado não influenciou a mutação, mas se T ou A forem mais frequentes a jusante de C, pareceria que C poderia estar influenciando a mutação. transição T / A, mas a frequência de referência indica que este é apenas um efeito de não-aleatoriedade do genoma. Quando desaminamos todo o C restante no CpG, houve um pequeno aumento no viés. Simulando diferentes porcentagens de aminação de "CpA" e "TpG" de volta para dinucleotídeos CpG foi notável que o viés é completamente apagado com 25% a 35% de aminação. Nós não vemos o efeito de nucleotídeo vizinho nessas condições. As substituições de R e Y não responderam à aminação, provavelmente porque a aminação já causa R e Y. Sugere-se que a composição de dinucleotídeos produza o viés de vizinhança reportado anteriormente sobre a probabilidade do SNP. A maior parte deste efeito pode ser explicada pela desaminação de C em CpG e sugerimos que originalmente o genoma humano teria 25% a 35% da presente CpA e TpG na forma de CpG.
Abstract:	The dynamics of DNA composition of the genomes of several taxa is one of the main issues in genomic analysis. These changes might be consequences of errors of both replication and repair machinery. Nucleotide substitution, for example, is one of the fuels in the production of genetic variation and directs evolution. These substitutions are supposed to occur randomly throughout the genome through the time. However, recent analysis on genomic data, especially SNP (single nucleotide polymorphism) data, demonstrated several characteristics supporting the non-randomness nature of this event, such as the high variation on the mutation rate along the genome. Recent studies have shown that the components of the genome affect mutation patterns to some extent, that is, intense nucleotide neighborhood biases were observed at positions immediately adjacent to mutations and less pronounced bias extend to regions distant from the replacement site. This phenomenon may be mainly attributed to the enzyme that modifies or mutates the genetic material, since most enzymes tend to have specific sequence contexts that dictate their activity. Thus, identification of context effects may lead to the discovery of additional editing sites or unknown enzymatic factors. Aiming to investigate comprehensively this event, we built an online database to show the pattern of bases in SNP neighborhood, available at: http://bioinfo.icb.ufmg.br/snplane/ using the latest SNP datasets from 5 different species of mammals (Mus musculus, Homo Sapiens, Bos taurus, Rattus Norvegicus and Sus scrofa) were downloaded and then parsed according to the genomic region where the SNP belonged to (intron, exon, 5’ upstream, 3’ downstream and coding sequences) and classified by substitution type: K, M, R, Y, W or S. For each SNP class, nucleotide frequencies were calculated for the first five positions upstream and downstream surrounding the SNP. Expected baseline nucleotide frequencies for positions neighbouring the SNP were estimated by randomly choosing positions in the genome and retrieving nucleotides flanking it. Two graphics are presented for each of 1200 distinct situations. In the majority of cases, baseline frequency was not significantly different from the observed data, indicating that the observed neighboring effect was not an influence on the mutation, but rather if T or A are more frequent downstream of C, it would seem C might be influencing the transition T/A but baseline frequency indicates that this is just an effect of non-randomness of the genome. When we deaminated all remaining C in CpG, was a small increase in bias. Simulating different percentages of amination of "CpA" and "TpG" back to CpG dinucleotides was noteworthy that the bias is completely erased with 25% to 35% of amination. We do not see the neighboring nucleotide effect on these conditions. R and Y substitutions did not respond to amination, probably because amination already causes R and Y. It is suggested that dinucleotide composition produces the previously reported neighborhood bias on SNP probability. Most of this effect might be explained by deamination of C in CpG and we suggest that originally human genome would have 25% to 35% of the present CpA and TpG in the form of CpG.
Assunto:	Bioinformática Mutação Base de dados Polimorfismo de nucleotídeo único
Idioma:	por
País:	Brasil
Editor:	Universidade Federal de Minas Gerais
Sigla da Instituição:	UFMG
Departamento:	ICB - INSTITUTO DE CIÊNCIAS BIOLOGICAS
Curso:	Programa de Pós-Graduação em Bioinformatica
Tipo de Acesso:	Acesso Aberto
URI:	http://hdl.handle.net/1843/30434
Data do documento:	31-Jul-2019
Aparece nas coleções:	Dissertações de Mestrado

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
dissertacao_fernandaStussi_snpLane_final.pdf		67.05 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas