Desenvolvimento de uma metodologiapara previsão de sítios de início detradução
| dc.creator | Cristiane Neri Nobre | |
| dc.date.accessioned | 2019-08-09T12:22:05Z | |
| dc.date.accessioned | 2025-09-08T23:40:55Z | |
| dc.date.available | 2019-08-09T12:22:05Z | |
| dc.date.issued | 2007-08-06 | |
| dc.description.abstract | The correct prediction of the translation start site in mRNA sequences is an im-portanttask in genomic annotation. However, attaining a correct prediction is nottrivial. Frequently the translation starts on the first AUG, but that is not a rule.Thus, this problem can be modeled as a classification problem between positive (co-dingsequences) and negative patterns (non coding sequences). To approach thisproblem the authors of this work propose the following methodology: (1) an alterna-tiveextration of negative patterns; (2) using of shorter sequence window; (3) modi-ficationof the codification for the nucleotides; (4) utilization of Smote - method forclass balance, since the problem is highly unbalanced (1:29 fold in average) for thebases used in this work; (5) use of a transductive approach besides the traditionalinductive inference; and finally, (6) use of the Support Vector Machine (SVM) classi-fier- with simple kernel functions. To test this methodology sequences collected byPetersen and Nielsen and RefSeq (Reference Sequences) sequences from NCBI (Na-tionalCenter for Biotechnology Information) from five organisms were used: Daniorerio, Drosophila melanogaster, Homo sapiens, Mus musculus and Rattus norvegicus,under six distinct inspection levels (reviewed, provisional, predicted, validated, mo-deland inferred). As a result, accuracy, adjusted accuracy, precision, sensitivityand specificity over 95% were attained, in average, by using negative patterns out offrame during training step, 24 nucleotide windows, codification by triples, patternbalancing with Smote, SVM classifier and by considering a scanning model, in which validation is tested up to TIS. | |
| dc.identifier.uri | https://hdl.handle.net/1843/GRFO-7P4LQ9 | |
| dc.language | Português | |
| dc.publisher | Universidade Federal de Minas Gerais | |
| dc.rights | Acesso Aberto | |
| dc.subject | Bioinformática | |
| dc.subject.other | Smote | |
| dc.subject.other | Sítio de Início de Tradução | |
| dc.subject.other | de Dados Desbalanceado | |
| dc.subject.other | Inferência Transdutiva | |
| dc.subject.other | Support Vector Machine | |
| dc.subject.other | Con-junto | |
| dc.title | Desenvolvimento de uma metodologiapara previsão de sítios de início detradução | |
| dc.type | Tese de doutorado | |
| local.contributor.advisor-co1 | Jose Miguel Ortega | |
| local.contributor.advisor1 | Antonio de Padua Braga | |
| local.contributor.referee1 | Andrea Mara Macedo | |
| local.contributor.referee1 | José Demísio Simões da Silva | |
| local.contributor.referee1 | Jerônimo Conceição Ruiz | |
| local.contributor.referee1 | Walmir Matos Caminhas | |
| local.description.resumo | A previsão correta do início de tradução em seqüências de mRNA é uma tarefaimportante para a anotação genômica. No entanto, fazer uma previsão correta nemsempre é uma tarefa trivial. Na maioria dos casos, a tradução começa no primeiroAUG da seqüência, mas isso nem sempre acontece. Desta forma, essa situação podeser modelada como um problema de classificação entre as seqüências positivas (co-dificadorasde proteínas) e negativas (não codificadoras). Para resolvê-lo, os autoresdeste trabalho propõem a seguinte metodologia: (1) uma forma alternativa de extrairas seqüências negativas; (2) utilização de tamanho de janelas de nucleotídeos me-nores;(3) alteração na forma de codificação dos nucleotídeos; (4) utilização de ummétodo de balanceamento de classes, visto que trata-se de um problema altamentedesbalanceado (da ordem de 1:29, em média) para as bases utilizadas neste traba-lho;(5) utilização de uma abordagem de inferência transdutiva, além da inferênciaindutiva tradicional; e, finalmente, 6) utilização do classificador Support Vector Ma-chine- SVM - com funções simples de kernel. Para testar essa metodologia, foramutilizadas as seqüências de Petersen Nielsen e do RefSeq (Reference Sequences) doNCBI (National Center for Biotechnology Information) de cinco organismos: Danio re-rio,Drosophila melanogaster, Homo sapiens, Mus musculus e Rattus norvegicus, sobseis níveis de inspeção (reviewed, provisional, predicted, validated, model e inferred).O resultado são uma acurácia 1 , acurácia ajustada 2 , precisão 3 , sensibilidade 4 e es-pecificidade5 acima de 95%, em média, utilizando-se seqüências negativas fora defase de leitura durante o treinamento, janelas de 24 bases, codificação por trinca,balanceamento das seqüências (com o Smote), o classificador SVM transdutivo econsiderando-se o modelo de escaneamento, onde a validação é realizada até o SIT.Palavras-chave: Sítio de Início de Tradução, Support Vector Machine, Smote, Con-juntode Dados Desbalanceado, Inferência Transdutiva. | |
| local.publisher.initials | UFMG |
Arquivos
Pacote original
1 - 1 de 1
Carregando...
- Nome:
- cristiane_neri_nobre___tese.pdf
- Tamanho:
- 588.87 KB
- Formato:
- Adobe Portable Document Format