Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/73392
Type: Tese
Title: Montagem híbrida e análises de aneuploidias em genomas complexos: Trypanosoma cruzi CL Brener como modelo
Authors: Anderson Coqueiro dos Santos
First Advisor: Daniella Castanheira Bartholomeu
First Co-advisor: João Luís Reis Cunha
First Referee: Francisco Lobo
Second Referee: Rodrigo de Paula Baptista
Third Referee: Leonardo Koerich
metadata.dc.contributor.referee4: Fabiano Sviatopolk-Mirsky Pais
Abstract: Trypanosoma cruzi, o agente etiológico da doença de Chagas, é um protozoário unicelular flagelado que teve a primeira versão do seu genoma sequenciado e publicado em 2005. A cepa selecionada foi a CL Brener, de linhagem híbrida entre os DTUs TcII e TcIII. Essa característica híbrida, além da grande quantidade de membros de famílias multigênicas, associado a outros elementos repetitivos do genoma de T. cruzi comprometeu a qualidade da montagem. Devido a isso, neste trabalho uma nova montagem foi realizada utilizando de sequenciamento de reads longas (PacBio) combinado a reads curtas (Illumina), e reads de Sanger de BACs e Fosmídeos geradas pelo projeto genoma de 2005 para auxiliar a montagem. Para tal, diferentes montadores foram testados, como o Canu e HGAP, para construção dos contigs. O scaffolding foi realizado de modo interativo, reduzindo a cada iteração o número de reads usado para juntar contigs, permitindo a montagem de regiões com melhor suporte primeiro. Um total de 446 sequências foram obtidas ao fim da montagem, seguida da correção das mesmas utilizando reads curtas. Uma anotação de novo desta nova montagem foi realizada utilizando o programa Augustus tendo como base dados a anotação disponível no TritrypDB da cepa CL Brener, bem como de outras cepas já anotadas. Além disso, as regiões teloméricas e subteloméricas foram avaliadas, tendo sido obtidas 24 sequências com telômeros. A montagem do genoma da cepa CL Brener de T. cruzi utilizando a combinação de diferentes métodos de sequenciamento apresentou bons resultados quando comparado com a atual montagem de CL Brener do TritrypDB e outras montagens mais recentes de outras linhagens que foram também montadas utilizando reads longas. Nós também avaliamos a ocorrência de pontos de recombinação no genoma híbrido de CL Brener utilizando reads curtas de Illumina de cepas representantes das linhagens parentais (Y TcII e 231 TcIII). Foram identificados possíveis pontos de recombinação exclusivos de CL Brener, bem como sítios de recombinação compartilhados entre CL Brener e TCC, uma outra cepa híbrida também da DTU TcVI. Por fim, foi desenvolvida a ferramenta CADIn, destinada a inferir ploidia genômica e variações de somias cromossômicas com base em dados NGS com um único comando. Para tal, CADIn usa frequências alélicas de SNPs heterozigotos e análises de cobertura de profundidade de reads. CADIn remove regiões cromossômicas com coberturas atípicas, as quais podem comprometer as análises de profundidade de reads, e válida variações de polida estatisticamente. Através desta ferramenta, foram detectadas aneuploidias no genoma de CL Brener, bem em outros genomas de diferentes complexidades como Leismania sp. e Saccharomyces cerevisiae. Além disso, dados simulados demonstraram a capacidade de CADIn de usar reads com diferentes comprimentos e obtidas por diferentes métodos de sequenciamento.
Abstract: Trypanosoma cruzi, the etiological agent of Chagas disease, is a flagellated unicellular protozoan parasite, whose the first version of its genome was sequenced and published in 2005. The strain selected was CL Brener, a hybrid lineage between DTUs TcII and TcIII. This hybrid characteristic, in addition to the large number of members of multigenic families associated with other repetitive elements of the T. cruzi genome, compromised the quality of assembly. Because of this, in this work, a new assembly was performed using sequencing of long reads (PacBio) combined with short reads (Illumina), and Sanger reads of BACs and Fosmids generated by the genome project of 2005 were also used to aid assembly. For this, different assemblers were tested, such as Canu and HGAP, for the construction of contigs. Scaffolding was performed interactively, reducing the number of reads used to join contigs at each iteration and therefore allowing the assembly of regions with better support first. A total of 446 sequences were obtained at the end of assembly, followed by their correction using short reads. A de novo annotation of this new assembly was performed using the Augustus program based on the CL Brener annotation available in the TritrypDB, as well as that of other strains already annotated. In addition, the telomeric and subtelomeric regions were evaluated, obtaining 24 sequences with telomeres. Compared to the public CL Brener assembly and other recent assemblies of different strains that also used long reads, this new genome assembly of the CL Brener showed good results. We have also evaluated the occurrence of recombination in the CL Brener genome using short Illumina reads from strains representative of the parental lineages (Y TcII and 231 TcIII). We detected possible recombination sites exclusive of CL Brener, as well as common recombination sites between CL Brener and TCC, another hybrid strain of DTU TcVI. Finally, we have developed CADIn, a tool intended to infer genomic ploidy and chromosomal somy variations based on NGS data with a single command. To this end, CADIn uses both allele frequencies of heterozygous SNPs and depth coverage analysis of reads. CADIn removes chromosomal regions with atypical coverage that may complicate read depth analysis and statistically validates ploidy variations. Through this tool, aneuploidies were detected in the CL Brener genome as well as in other genomes with distinct levels of complexity such as Leismania sp., and Saccharomyces cerevisiae. In addition, simulated data demonstrated CADIn's ability to use reads with different lengths and obtained by different sequencing methods.
Subject: Bioinformática
Trypanosoma cruzi
Genoma
Aneuploidia
language: por
metadata.dc.publisher.country: Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.department: ICB - INSTITUTO DE CIÊNCIAS BIOLOGICAS
metadata.dc.publisher.program: Programa de Pós-Graduação em Bioinformatica
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/73392
Issue Date: 25-Aug-2023
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
Anderson_Coqueiro.pdf9.35 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.