Please use this identifier to cite or link to this item:
http://hdl.handle.net/1843/GRFO-7P4LQ9
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor1 | Antonio de Padua Braga | pt_BR |
dc.contributor.advisor-co1 | Jose Miguel Ortega | pt_BR |
dc.contributor.referee1 | Andrea Mara Macedo | pt_BR |
dc.contributor.referee2 | José Demísio Simões da Silva | pt_BR |
dc.contributor.referee3 | Jerônimo Conceição Ruiz | pt_BR |
dc.contributor.referee4 | Walmir Matos Caminhas | pt_BR |
dc.creator | Cristiane Neri Nobre | pt_BR |
dc.date.accessioned | 2019-08-09T12:22:05Z | - |
dc.date.available | 2019-08-09T12:22:05Z | - |
dc.date.issued | 2007-08-06 | pt_BR |
dc.identifier.uri | http://hdl.handle.net/1843/GRFO-7P4LQ9 | - |
dc.description.abstract | The correct prediction of the translation start site in mRNA sequences is an im-portanttask in genomic annotation. However, attaining a correct prediction is nottrivial. Frequently the translation starts on the first AUG, but that is not a rule.Thus, this problem can be modeled as a classification problem between positive (co-dingsequences) and negative patterns (non coding sequences). To approach thisproblem the authors of this work propose the following methodology: (1) an alterna-tiveextration of negative patterns; (2) using of shorter sequence window; (3) modi-ficationof the codification for the nucleotides; (4) utilization of Smote - method forclass balance, since the problem is highly unbalanced (1:29 fold in average) for thebases used in this work; (5) use of a transductive approach besides the traditionalinductive inference; and finally, (6) use of the Support Vector Machine (SVM) classi-fier- with simple kernel functions. To test this methodology sequences collected byPetersen and Nielsen and RefSeq (Reference Sequences) sequences from NCBI (Na-tionalCenter for Biotechnology Information) from five organisms were used: Daniorerio, Drosophila melanogaster, Homo sapiens, Mus musculus and Rattus norvegicus,under six distinct inspection levels (reviewed, provisional, predicted, validated, mo-deland inferred). As a result, accuracy, adjusted accuracy, precision, sensitivityand specificity over 95% were attained, in average, by using negative patterns out offrame during training step, 24 nucleotide windows, codification by triples, patternbalancing with Smote, SVM classifier and by considering a scanning model, in which validation is tested up to TIS. | pt_BR |
dc.description.resumo | A previsão correta do início de tradução em seqüências de mRNA é uma tarefaimportante para a anotação genômica. No entanto, fazer uma previsão correta nemsempre é uma tarefa trivial. Na maioria dos casos, a tradução começa no primeiroAUG da seqüência, mas isso nem sempre acontece. Desta forma, essa situação podeser modelada como um problema de classificação entre as seqüências positivas (co-dificadorasde proteínas) e negativas (não codificadoras). Para resolvê-lo, os autoresdeste trabalho propõem a seguinte metodologia: (1) uma forma alternativa de extrairas seqüências negativas; (2) utilização de tamanho de janelas de nucleotídeos me-nores;(3) alteração na forma de codificação dos nucleotídeos; (4) utilização de ummétodo de balanceamento de classes, visto que trata-se de um problema altamentedesbalanceado (da ordem de 1:29, em média) para as bases utilizadas neste traba-lho;(5) utilização de uma abordagem de inferência transdutiva, além da inferênciaindutiva tradicional; e, finalmente, 6) utilização do classificador Support Vector Ma-chine- SVM - com funções simples de kernel. Para testar essa metodologia, foramutilizadas as seqüências de Petersen Nielsen e do RefSeq (Reference Sequences) doNCBI (National Center for Biotechnology Information) de cinco organismos: Danio re-rio,Drosophila melanogaster, Homo sapiens, Mus musculus e Rattus norvegicus, sobseis níveis de inspeção (reviewed, provisional, predicted, validated, model e inferred).O resultado são uma acurácia 1 , acurácia ajustada 2 , precisão 3 , sensibilidade 4 e es-pecificidade5 acima de 95%, em média, utilizando-se seqüências negativas fora defase de leitura durante o treinamento, janelas de 24 bases, codificação por trinca,balanceamento das seqüências (com o Smote), o classificador SVM transdutivo econsiderando-se o modelo de escaneamento, onde a validação é realizada até o SIT.Palavras-chave: Sítio de Início de Tradução, Support Vector Machine, Smote, Con-juntode Dados Desbalanceado, Inferência Transdutiva. | pt_BR |
dc.language | Português | pt_BR |
dc.publisher | Universidade Federal de Minas Gerais | pt_BR |
dc.publisher.initials | UFMG | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.subject | Smote | pt_BR |
dc.subject | Sítio de Início de Tradução | pt_BR |
dc.subject | de Dados Desbalanceado | pt_BR |
dc.subject | Inferência Transdutiva | pt_BR |
dc.subject | Support Vector Machine | pt_BR |
dc.subject | Con-junto | pt_BR |
dc.subject.other | Bioinformática | pt_BR |
dc.title | Desenvolvimento de uma metodologiapara previsão de sítios de início detradução | pt_BR |
dc.type | Tese de Doutorado | pt_BR |
Appears in Collections: | Teses de Doutorado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
cristiane_neri_nobre___tese.pdf | 588.87 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.