Escore de incerteza em bancos de dados categóricos

dc.creatorDeive Ciro de Oliveira
dc.date.accessioned2019-08-12T13:42:09Z
dc.date.accessioned2025-09-09T01:06:28Z
dc.date.available2019-08-12T13:42:09Z
dc.date.issued2011-12-01
dc.description.abstractWe have been witnessing a signicant growth in the volume of biological data, in particular biomolecular data that are stored in databases such as Genbank, KOGG SCOP, PDB, and Uniprot, which are made available through the internet and have been causing a major impact in research and development activities. Such growth is explained by the development of novel and less costly data gathering techniques, as well as, lower costs and higher availability of storage and communication resources. A key feature that distinguishes those databases is regarding the rocedure to generate and to maintain those databases. Several databases are created using automated procedures (in silico) and the resulting data is not curated by an expert. Other databases, named curated, employ specialized supervision for both generation and revision of haracteristics, which may be performed by the users that access the databases through the internet. The curated databases present a much higher quality with respect to annotations, but are very costly when compared to automatic processes. In this scenario, research on novel methodologies and techniques that help on the revision process are relevant, since they make it more ecient and less costly. This work aims to investigate, develop, and evaluate these methodologies and techniques and has two main contributions. The rst is a methodology for temporally characterizing the modications in a categorical database. This methodology is appliedto the UniprotKB/Swiss-prot, and quantied the record changes in keywords from this database. We also characterize the modications on the keywork associations, under a temporal perspective. The second contribution is a methodology for improving the revision process. An example of application scenario is the revision of the eld keywords fromthe UniprotKB/Swiss-prot database, where we can clearly see that proposed methodology is efective.
dc.identifier.urihttps://hdl.handle.net/1843/BUOS-8SSRGX
dc.languagePortuguês
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.subjectBanco de dados
dc.subjectBioinformática
dc.subjectMineração de dados (Computação)
dc.subject.otherBioinformática
dc.titleEscore de incerteza em bancos de dados categóricos
dc.typeTese de doutorado
local.contributor.advisor-co1Marcelo Matos Santoro
local.contributor.advisor1Wagner Meira Junior
local.contributor.referee1Alexandre Plastino de Carvalho
local.contributor.referee1Roney Santos Coimbra
local.contributor.referee1Glaura da Conceicao Franco
local.contributor.referee1Jose Miguel Ortega
local.description.resumoTemos observado um grande crescimento no volume de dados biológicos, em particularde natureza biomolecular, armazenados em bancos de dados como Genbank, KOGGSCOP, PDB e Uniprot, os quais são acessados livremente através da internet e tem tidoum impacto enorme nas atividades de pesquisa e desenvolvimento. Esse crescimento é explicado pelo desenvolvimento de novas e menos dispendiosas técnicas de obtenção daqueles dados, assim como menor custo e maior disponibilidade de meios de armazenamento e comunicação. Uma distinção importante entre esses bancos é com relação à forma de geração e manutenção da base de dados. Alguns bancos têm seus dados gerados a partir de métodos computacionais (in silico) e não são submetidos a processos de revisão. Outros bancos, denominados curados, adotam supervisão especializada nos processos de geraçãoe revisão de características, a qual pode ser feita pelos usuários que acessam esses bancos através da internet. Os bancos de dados curados alcançam alto padrão de qualidade em termos de anotação mas possuem um alto custo comparado a processos automatizados.Neste contexto, metodologias e técnicas para auxiliar no processo de revisão são relevantes, pois tornam a curagem mais eciente e reduzem o custo de realizá-la. Este trabalho tem por objetivo investigar, desenvolver e avaliar tais metodologias e técnicase apresenta duas contribuições principais. A primeira é uma metodologia para caracterizartemporalmente modicações em um banco de dados categórico. Essa metodologia é aplicada ao UniprotKB/Swiss-prot, quanticando as taxas de modicações especícasem palavras-chave do UniprotKB/Swiss-prot. Também são apresentadas as modicações nas associações existentes entre as palavras-chave, sob perspectiva temporal. A segundacontribuição é uma metodologia para auxílio no processo de revisão em bancos de dados categóricos. Um exemplo de aplicação é a revisão do campo palavras-chave do bancode dados UniprotKB/Swiss-prot, onde pudemos observar que a metodologia proposta é efetiva.
local.publisher.initialsUFMG

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
bioinform_tica.deivecirooliveira_tese.pdf
Tamanho:
764.83 KB
Formato:
Adobe Portable Document Format