ThermoMutDB e SARS-COV-2 Africa Dashboard: abordagens de ciência de dados para integração, análise e vigilância de dados biológicos
Carregando...
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Tese de doutorado
Título alternativo
ThermoMutDB and SARS-CoV-2 Africa Dashboard: data science approaches for biological data integration, analytics, and surveillance.
Primeiro orientador
Membros da banca
Aristóteles Góes Neto
Marta Giovanetti
Sandro Carvalho Izidoro
Lucianna Helene Silva dos Santos
Valdete Maria Gonçalves de Almeida
Marta Giovanetti
Sandro Carvalho Izidoro
Lucianna Helene Silva dos Santos
Valdete Maria Gonçalves de Almeida
Resumo
O crescimento exponencial na geração e disponibilização de dados biológicos, incluindo dados experimentais e genomas dos mais diversos organismos, impulsionou, nas últimas décadas, o surgimento de ferramentas computacionais que buscam predizer e entender uma variedade de fenômenos biológicos. Além disso, algumas iniciativas buscam informar e auxiliar na tomada de decisões sanitárias e de saúde. Para que seja possível o desenvolvimento desses e outros tantos trabalhos e análises relevantes, diversos bancos de dados têm sido mantidos como um recurso para orientar a inovação e a geração de novos insights biológicos. Nesse contexto, a mudança do paradigma de quantidade para qualidade de dados e informações têm sido cada vez mais necessária e crucial. No entanto, diferentes desafios são encontrados de acordo com a política de manutenção desses dados. As bases de dados utilizadas para pesquisas em Bioinformática, e também em outras áreas, podem ser abertas, onde a comunidade é responsável pela manutenção e verificação, ou mantidas por instituições que regulamentam a utilização desses dados. Neste trabalho, propusemos avaliar dois problemas relevantes em diferentes áreas de atuação da Bioinformática para entender como dados biológicos podem ser anotados e integrados de forma sustentável e otimizada a responder questões científicas relevantes e também informar a população. Como resultado, apresentamos duas abordagens que lidam com dois contextos diferentes, ThermoMutDB e SARS-CoV-2 Africa dashboard, tendo a qualidade de dados e entrega de informação científica como foco central. O ThermoMutDB é uma base de dados pública, manualmente curada, com dados termodinâmicos de proteínas. O SARS-CoV-2 Africa dashboard é uma ferramenta interativa para visualização e análises de dados genômicos de COVID-19 do continente africano. O ThermoMutDB propõe um paradigma colaborativo para verificação de dados para construção de bases de dados curadas com dados da literatura biomédica. O dashboard utiliza dados do GISAID (iniciativa que mantém e regula os dados genômicos dessa doença no mundo todo) através de um acordo entre as instituições e possibilita o acesso do público em geral a dados em tempo real que permitem a tomada de decisões em resposta à pandemia vigente. Resultados mostram que as ferramentas têm sido largamente utilizadas e têm potencial para impactar pesquisas futuras nas áreas de engenharia de proteínas e vigilância genômica, além da possibilidade de serem replicadas para outros contextos.
Abstract
The exponential growth in the generation and availability of biological data, including experimental data and genome sequences of diverse organisms, has boosted, in recent decades, the emergence of computational tools that seek to predict and understand biological phenomena. In addition, some initiatives seek to inform and assist general public health and sanitary decision-making. In order to make it possible to develop these and many other relevant works and analyses, several databases have been maintained as a resource to guide innovation and the generation of new biological insights. In this context, the paradigm shift from quantity to quality of data and information has been proven increasingly necessary and crucial. However, different challenges are encountered according to the data maintenance policy. Databases used for research in Bioinformatics, and also in other areas, can be open, where the community is responsible for maintenance and verification, or maintained by institutions that regulate the use of this data. In this work, we proposed to evaluate two relevant problems in different areas of activity of Bioinformatics to understand how biological data can be annotated and integrated in a sustainable and optimized way to answer relevant scientific questions and also inform the population. As a result, we present two approaches that deal with two different contexts, ThermoMutDB and SARS-CoV-2 Africa dashboard, with data quality and scientific information delivery as a central focus. ThermoMutDB is a public, manually curated database of protein thermodynamic data. The SARS-CoV-2 Africa dashboard is an interactive tool for visualizing and analyzing COVID-19 genomic data from the African continent. ThermoMutDB proposes a collaborative data verification paradigm for building curated databases with data from the biomedical literature. The dashboard uses data from GISAID (an initiative that maintains and regulates the genomic data of this disease worldwide) through an agreement between the institutions. It allows the general public access to real-time data in order to guide decision-making in response to the current pandemic. Results show that the tools have been widely used and have the potential to impact future research in protein engineering and genomic surveillance, in addition to the possibility of being replicated in other contexts.
Assunto
Bioinformática, Mutação de Sentido Incorreto, Termodinâmica, Betacoronavirus, Ciência de Dados, Base de Dados, Proteômica
Palavras-chave
bioinformática, mutações missense, termodinâmica, SARS-CoV-2, ciência de dados, bancos de dados, proteômica
Citação
Departamento
Endereço externo
Avaliação
Revisão
Suplementado Por
Referenciado Por
Licença Creative Commons
Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso Aberto
