Desenvolvimento de uma metodologiapara previsão de sítios de início detradução

dc.creatorCristiane Neri Nobre
dc.date.accessioned2019-08-09T12:22:05Z
dc.date.accessioned2025-09-08T23:40:55Z
dc.date.available2019-08-09T12:22:05Z
dc.date.issued2007-08-06
dc.description.abstractThe correct prediction of the translation start site in mRNA sequences is an im-portanttask in genomic annotation. However, attaining a correct prediction is nottrivial. Frequently the translation starts on the first AUG, but that is not a rule.Thus, this problem can be modeled as a classification problem between positive (co-dingsequences) and negative patterns (non coding sequences). To approach thisproblem the authors of this work propose the following methodology: (1) an alterna-tiveextration of negative patterns; (2) using of shorter sequence window; (3) modi-ficationof the codification for the nucleotides; (4) utilization of Smote - method forclass balance, since the problem is highly unbalanced (1:29 fold in average) for thebases used in this work; (5) use of a transductive approach besides the traditionalinductive inference; and finally, (6) use of the Support Vector Machine (SVM) classi-fier- with simple kernel functions. To test this methodology sequences collected byPetersen and Nielsen and RefSeq (Reference Sequences) sequences from NCBI (Na-tionalCenter for Biotechnology Information) from five organisms were used: Daniorerio, Drosophila melanogaster, Homo sapiens, Mus musculus and Rattus norvegicus,under six distinct inspection levels (reviewed, provisional, predicted, validated, mo-deland inferred). As a result, accuracy, adjusted accuracy, precision, sensitivityand specificity over 95% were attained, in average, by using negative patterns out offrame during training step, 24 nucleotide windows, codification by triples, patternbalancing with Smote, SVM classifier and by considering a scanning model, in which validation is tested up to TIS.
dc.identifier.urihttps://hdl.handle.net/1843/GRFO-7P4LQ9
dc.languagePortuguês
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.subjectBioinformática
dc.subject.otherSmote
dc.subject.otherSítio de Início de Tradução
dc.subject.otherde Dados Desbalanceado
dc.subject.otherInferência Transdutiva
dc.subject.otherSupport Vector Machine
dc.subject.otherCon-junto
dc.titleDesenvolvimento de uma metodologiapara previsão de sítios de início detradução
dc.typeTese de doutorado
local.contributor.advisor-co1Jose Miguel Ortega
local.contributor.advisor1Antonio de Padua Braga
local.contributor.referee1Andrea Mara Macedo
local.contributor.referee1José Demísio Simões da Silva
local.contributor.referee1Jerônimo Conceição Ruiz
local.contributor.referee1Walmir Matos Caminhas
local.description.resumoA previsão correta do início de tradução em seqüências de mRNA é uma tarefaimportante para a anotação genômica. No entanto, fazer uma previsão correta nemsempre é uma tarefa trivial. Na maioria dos casos, a tradução começa no primeiroAUG da seqüência, mas isso nem sempre acontece. Desta forma, essa situação podeser modelada como um problema de classificação entre as seqüências positivas (co-dificadorasde proteínas) e negativas (não codificadoras). Para resolvê-lo, os autoresdeste trabalho propõem a seguinte metodologia: (1) uma forma alternativa de extrairas seqüências negativas; (2) utilização de tamanho de janelas de nucleotídeos me-nores;(3) alteração na forma de codificação dos nucleotídeos; (4) utilização de ummétodo de balanceamento de classes, visto que trata-se de um problema altamentedesbalanceado (da ordem de 1:29, em média) para as bases utilizadas neste traba-lho;(5) utilização de uma abordagem de inferência transdutiva, além da inferênciaindutiva tradicional; e, finalmente, 6) utilização do classificador Support Vector Ma-chine- SVM - com funções simples de kernel. Para testar essa metodologia, foramutilizadas as seqüências de Petersen Nielsen e do RefSeq (Reference Sequences) doNCBI (National Center for Biotechnology Information) de cinco organismos: Danio re-rio,Drosophila melanogaster, Homo sapiens, Mus musculus e Rattus norvegicus, sobseis níveis de inspeção (reviewed, provisional, predicted, validated, model e inferred).O resultado são uma acurácia 1 , acurácia ajustada 2 , precisão 3 , sensibilidade 4 e es-pecificidade5 acima de 95%, em média, utilizando-se seqüências negativas fora defase de leitura durante o treinamento, janelas de 24 bases, codificação por trinca,balanceamento das seqüências (com o Smote), o classificador SVM transdutivo econsiderando-se o modelo de escaneamento, onde a validação é realizada até o SIT.Palavras-chave: Sítio de Início de Tradução, Support Vector Machine, Smote, Con-juntode Dados Desbalanceado, Inferência Transdutiva.
local.publisher.initialsUFMG

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
cristiane_neri_nobre___tese.pdf
Tamanho:
588.87 KB
Formato:
Adobe Portable Document Format