Desenvolvimento de uma metodologiapara previsão de sítios de início detradução

Cristiane Neri Nobre

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/GRFO-7P4LQ9

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Antonio de Padua Braga	pt_BR
dc.contributor.advisor-co1	Jose Miguel Ortega	pt_BR
dc.contributor.referee1	Andrea Mara Macedo	pt_BR
dc.contributor.referee2	José Demísio Simões da Silva	pt_BR
dc.contributor.referee3	Jerônimo Conceição Ruiz	pt_BR
dc.contributor.referee4	Walmir Matos Caminhas	pt_BR
dc.creator	Cristiane Neri Nobre	pt_BR
dc.date.accessioned	2019-08-09T12:22:05Z	-
dc.date.available	2019-08-09T12:22:05Z	-
dc.date.issued	2007-08-06	pt_BR
dc.identifier.uri	http://hdl.handle.net/1843/GRFO-7P4LQ9	-
dc.description.abstract	The correct prediction of the translation start site in mRNA sequences is an im-portanttask in genomic annotation. However, attaining a correct prediction is nottrivial. Frequently the translation starts on the first AUG, but that is not a rule.Thus, this problem can be modeled as a classification problem between positive (co-dingsequences) and negative patterns (non coding sequences). To approach thisproblem the authors of this work propose the following methodology: (1) an alterna-tiveextration of negative patterns; (2) using of shorter sequence window; (3) modi-ficationof the codification for the nucleotides; (4) utilization of Smote - method forclass balance, since the problem is highly unbalanced (1:29 fold in average) for thebases used in this work; (5) use of a transductive approach besides the traditionalinductive inference; and finally, (6) use of the Support Vector Machine (SVM) classi-fier- with simple kernel functions. To test this methodology sequences collected byPetersen and Nielsen and RefSeq (Reference Sequences) sequences from NCBI (Na-tionalCenter for Biotechnology Information) from five organisms were used: Daniorerio, Drosophila melanogaster, Homo sapiens, Mus musculus and Rattus norvegicus,under six distinct inspection levels (reviewed, provisional, predicted, validated, mo-deland inferred). As a result, accuracy, adjusted accuracy, precision, sensitivityand specificity over 95% were attained, in average, by using negative patterns out offrame during training step, 24 nucleotide windows, codification by triples, patternbalancing with Smote, SVM classifier and by considering a scanning model, in which validation is tested up to TIS.	pt_BR
dc.description.resumo	A previsão correta do início de tradução em seqüências de mRNA é uma tarefaimportante para a anotação genômica. No entanto, fazer uma previsão correta nemsempre é uma tarefa trivial. Na maioria dos casos, a tradução começa no primeiroAUG da seqüência, mas isso nem sempre acontece. Desta forma, essa situação podeser modelada como um problema de classificação entre as seqüências positivas (co-dificadorasde proteínas) e negativas (não codificadoras). Para resolvê-lo, os autoresdeste trabalho propõem a seguinte metodologia: (1) uma forma alternativa de extrairas seqüências negativas; (2) utilização de tamanho de janelas de nucleotídeos me-nores;(3) alteração na forma de codificação dos nucleotídeos; (4) utilização de ummétodo de balanceamento de classes, visto que trata-se de um problema altamentedesbalanceado (da ordem de 1:29, em média) para as bases utilizadas neste traba-lho;(5) utilização de uma abordagem de inferência transdutiva, além da inferênciaindutiva tradicional; e, finalmente, 6) utilização do classificador Support Vector Ma-chine- SVM - com funções simples de kernel. Para testar essa metodologia, foramutilizadas as seqüências de Petersen Nielsen e do RefSeq (Reference Sequences) doNCBI (National Center for Biotechnology Information) de cinco organismos: Danio re-rio,Drosophila melanogaster, Homo sapiens, Mus musculus e Rattus norvegicus, sobseis níveis de inspeção (reviewed, provisional, predicted, validated, model e inferred).O resultado são uma acurácia 1 , acurácia ajustada 2 , precisão 3 , sensibilidade 4 e es-pecificidade5 acima de 95%, em média, utilizando-se seqüências negativas fora defase de leitura durante o treinamento, janelas de 24 bases, codificação por trinca,balanceamento das seqüências (com o Smote), o classificador SVM transdutivo econsiderando-se o modelo de escaneamento, onde a validação é realizada até o SIT.Palavras-chave: Sítio de Início de Tradução, Support Vector Machine, Smote, Con-juntode Dados Desbalanceado, Inferência Transdutiva.	pt_BR
dc.language	Português	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Smote	pt_BR
dc.subject	Sítio de Início de Tradução	pt_BR
dc.subject	de Dados Desbalanceado	pt_BR
dc.subject	Inferência Transdutiva	pt_BR
dc.subject	Support Vector Machine	pt_BR
dc.subject	Con-junto	pt_BR
dc.subject.other	Bioinformática	pt_BR
dc.title	Desenvolvimento de uma metodologiapara previsão de sítios de início detradução	pt_BR
dc.type	Tese de Doutorado	pt_BR
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
cristiane_neri_nobre___tese.pdf		588.87 kB	Adobe PDF	View/Open

Show simple item record