Escore de incerteza em bancos de dados categóricos

Deive Ciro de Oliveira

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/BUOS-8SSRGX

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Wagner Meira Junior	pt_BR
dc.contributor.advisor-co1	Marcelo Matos Santoro	pt_BR
dc.contributor.referee1	Alexandre Plastino de Carvalho	pt_BR
dc.contributor.referee2	Roney Santos Coimbra	pt_BR
dc.contributor.referee3	Glaura da Conceicao Franco	pt_BR
dc.contributor.referee4	Jose Miguel Ortega	pt_BR
dc.creator	Deive Ciro de Oliveira	pt_BR
dc.date.accessioned	2019-08-12T13:42:09Z	-
dc.date.available	2019-08-12T13:42:09Z	-
dc.date.issued	2011-12-01	pt_BR
dc.identifier.uri	http://hdl.handle.net/1843/BUOS-8SSRGX	-
dc.description.abstract	We have been witnessing a signicant growth in the volume of biological data, in particular biomolecular data that are stored in databases such as Genbank, KOGG SCOP, PDB, and Uniprot, which are made available through the internet and have been causing a major impact in research and development activities. Such growth is explained by the development of novel and less costly data gathering techniques, as well as, lower costs and higher availability of storage and communication resources. A key feature that distinguishes those databases is regarding the rocedure to generate and to maintain those databases. Several databases are created using automated procedures (in silico) and the resulting data is not curated by an expert. Other databases, named curated, employ specialized supervision for both generation and revision of haracteristics, which may be performed by the users that access the databases through the internet. The curated databases present a much higher quality with respect to annotations, but are very costly when compared to automatic processes. In this scenario, research on novel methodologies and techniques that help on the revision process are relevant, since they make it more ecient and less costly. This work aims to investigate, develop, and evaluate these methodologies and techniques and has two main contributions. The rst is a methodology for temporally characterizing the modications in a categorical database. This methodology is appliedto the UniprotKB/Swiss-prot, and quantied the record changes in keywords from this database. We also characterize the modications on the keywork associations, under a temporal perspective. The second contribution is a methodology for improving the revision process. An example of application scenario is the revision of the eld keywords fromthe UniprotKB/Swiss-prot database, where we can clearly see that proposed methodology is efective.	pt_BR
dc.description.resumo	Temos observado um grande crescimento no volume de dados biológicos, em particularde natureza biomolecular, armazenados em bancos de dados como Genbank, KOGGSCOP, PDB e Uniprot, os quais são acessados livremente através da internet e tem tidoum impacto enorme nas atividades de pesquisa e desenvolvimento. Esse crescimento é explicado pelo desenvolvimento de novas e menos dispendiosas técnicas de obtenção daqueles dados, assim como menor custo e maior disponibilidade de meios de armazenamento e comunicação. Uma distinção importante entre esses bancos é com relação à forma de geração e manutenção da base de dados. Alguns bancos têm seus dados gerados a partir de métodos computacionais (in silico) e não são submetidos a processos de revisão. Outros bancos, denominados curados, adotam supervisão especializada nos processos de geraçãoe revisão de características, a qual pode ser feita pelos usuários que acessam esses bancos através da internet. Os bancos de dados curados alcançam alto padrão de qualidade em termos de anotação mas possuem um alto custo comparado a processos automatizados.Neste contexto, metodologias e técnicas para auxiliar no processo de revisão são relevantes, pois tornam a curagem mais eciente e reduzem o custo de realizá-la. Este trabalho tem por objetivo investigar, desenvolver e avaliar tais metodologias e técnicase apresenta duas contribuições principais. A primeira é uma metodologia para caracterizartemporalmente modicações em um banco de dados categórico. Essa metodologia é aplicada ao UniprotKB/Swiss-prot, quanticando as taxas de modicações especícasem palavras-chave do UniprotKB/Swiss-prot. Também são apresentadas as modicações nas associações existentes entre as palavras-chave, sob perspectiva temporal. A segundacontribuição é uma metodologia para auxílio no processo de revisão em bancos de dados categóricos. Um exemplo de aplicação é a revisão do campo palavras-chave do bancode dados UniprotKB/Swiss-prot, onde pudemos observar que a metodologia proposta é efetiva.	pt_BR
dc.language	Português	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Bioinformática	pt_BR
dc.subject.other	Banco de dados	pt_BR
dc.subject.other	Bioinformática	pt_BR
dc.subject.other	Mineração de dados (Computação)	pt_BR
dc.title	Escore de incerteza em bancos de dados categóricos	pt_BR
dc.type	Tese de Doutorado	pt_BR
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
bioinform_tica.deivecirooliveira_tese.pdf		764.83 kB	Adobe PDF	View/Open

Show simple item record