Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/GRFO-7P4LQ9
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Antonio de Padua Bragapt_BR
dc.contributor.advisor-co1Jose Miguel Ortegapt_BR
dc.contributor.referee1Andrea Mara Macedopt_BR
dc.contributor.referee2José Demísio Simões da Silvapt_BR
dc.contributor.referee3Jerônimo Conceição Ruizpt_BR
dc.contributor.referee4Walmir Matos Caminhaspt_BR
dc.creatorCristiane Neri Nobrept_BR
dc.date.accessioned2019-08-09T12:22:05Z-
dc.date.available2019-08-09T12:22:05Z-
dc.date.issued2007-08-06pt_BR
dc.identifier.urihttp://hdl.handle.net/1843/GRFO-7P4LQ9-
dc.description.abstractThe correct prediction of the translation start site in mRNA sequences is an im-portanttask in genomic annotation. However, attaining a correct prediction is nottrivial. Frequently the translation starts on the first AUG, but that is not a rule.Thus, this problem can be modeled as a classification problem between positive (co-dingsequences) and negative patterns (non coding sequences). To approach thisproblem the authors of this work propose the following methodology: (1) an alterna-tiveextration of negative patterns; (2) using of shorter sequence window; (3) modi-ficationof the codification for the nucleotides; (4) utilization of Smote - method forclass balance, since the problem is highly unbalanced (1:29 fold in average) for thebases used in this work; (5) use of a transductive approach besides the traditionalinductive inference; and finally, (6) use of the Support Vector Machine (SVM) classi-fier- with simple kernel functions. To test this methodology sequences collected byPetersen and Nielsen and RefSeq (Reference Sequences) sequences from NCBI (Na-tionalCenter for Biotechnology Information) from five organisms were used: Daniorerio, Drosophila melanogaster, Homo sapiens, Mus musculus and Rattus norvegicus,under six distinct inspection levels (reviewed, provisional, predicted, validated, mo-deland inferred). As a result, accuracy, adjusted accuracy, precision, sensitivityand specificity over 95% were attained, in average, by using negative patterns out offrame during training step, 24 nucleotide windows, codification by triples, patternbalancing with Smote, SVM classifier and by considering a scanning model, in which validation is tested up to TIS.pt_BR
dc.description.resumoA previsão correta do início de tradução em seqüências de mRNA é uma tarefaimportante para a anotação genômica. No entanto, fazer uma previsão correta nemsempre é uma tarefa trivial. Na maioria dos casos, a tradução começa no primeiroAUG da seqüência, mas isso nem sempre acontece. Desta forma, essa situação podeser modelada como um problema de classificação entre as seqüências positivas (co-dificadorasde proteínas) e negativas (não codificadoras). Para resolvê-lo, os autoresdeste trabalho propõem a seguinte metodologia: (1) uma forma alternativa de extrairas seqüências negativas; (2) utilização de tamanho de janelas de nucleotídeos me-nores;(3) alteração na forma de codificação dos nucleotídeos; (4) utilização de ummétodo de balanceamento de classes, visto que trata-se de um problema altamentedesbalanceado (da ordem de 1:29, em média) para as bases utilizadas neste traba-lho;(5) utilização de uma abordagem de inferência transdutiva, além da inferênciaindutiva tradicional; e, finalmente, 6) utilização do classificador Support Vector Ma-chine- SVM - com funções simples de kernel. Para testar essa metodologia, foramutilizadas as seqüências de Petersen Nielsen e do RefSeq (Reference Sequences) doNCBI (National Center for Biotechnology Information) de cinco organismos: Danio re-rio,Drosophila melanogaster, Homo sapiens, Mus musculus e Rattus norvegicus, sobseis níveis de inspeção (reviewed, provisional, predicted, validated, model e inferred).O resultado são uma acurácia 1 , acurácia ajustada 2 , precisão 3 , sensibilidade 4 e es-pecificidade5 acima de 95%, em média, utilizando-se seqüências negativas fora defase de leitura durante o treinamento, janelas de 24 bases, codificação por trinca,balanceamento das seqüências (com o Smote), o classificador SVM transdutivo econsiderando-se o modelo de escaneamento, onde a validação é realizada até o SIT.Palavras-chave: Sítio de Início de Tradução, Support Vector Machine, Smote, Con-juntode Dados Desbalanceado, Inferência Transdutiva.pt_BR
dc.languagePortuguêspt_BR
dc.publisherUniversidade Federal de Minas Geraispt_BR
dc.publisher.initialsUFMGpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectSmotept_BR
dc.subjectSítio de Início de Traduçãopt_BR
dc.subjectde Dados Desbalanceadopt_BR
dc.subjectInferência Transdutivapt_BR
dc.subjectSupport Vector Machinept_BR
dc.subjectCon-juntopt_BR
dc.subject.otherBioinformáticapt_BR
dc.titleDesenvolvimento de uma metodologiapara previsão de sítios de início detraduçãopt_BR
dc.typeTese de Doutoradopt_BR
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
cristiane_neri_nobre___tese.pdf588.87 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.