Inferência em assinaturas de amostras em cadeias de memória de alcance variável

Wecsley Otero Prates

Use este identificador para citar o ir al link de este elemento: http://hdl.handle.net/1843/ICED-8TFFLC

Tipo:	Dissertação de Mestrado
Título:	Inferência em assinaturas de amostras em cadeias de memória de alcance variável
Autor(es):	Wecsley Otero Prates
primer Tutor:	Denise Duarte Scarpa Magalhaes Alves
primer Co-tutor:	Marcos Antonio da Cunha Santos
primer miembro del tribunal :	Enrico Antonio Colosimo
Segundo miembro del tribunal:	Marcos Antonio da Cunha Santos
Tercer miembro del tribunal:	Gustavo leonel Glardoni
Resumen:	A análise de um modelo estocástico que descreva, realisticamente, uma situação prática é um grande desafio, em particular porque os fenômenos reais exibem várias dependências. Neste contexto os modelos markovianos desempenham um papel fundamental, uma vezque permitem soluções mais ecientes. Uma cadeia de Markov fXt; t 2 Zg de ordem k assumindo valores em um alfabeto A nito tem jAjk(jAj .. 1) parâmetros a serem estimados. Esse número cresce exponencialmente em k e, portanto, pode tornar-se inviável mesmo para valores não muito Uma alternativa mais viável do ponto de vista da estimação, é a utilização de Cadeias de Memória de Alcance Variável (VLMC), conhecidas também por Árvores Probabilísticas de Contexto (PCT). O modelo VLMC foi introduzido por Rissanen em 1983. Nesse modelo o tamanho do passado relevante para prever o próximo símbolo muda de uma sequência para outra. Desta forma, o número de parâmetros a serem estimados dimimui muito, uma vez que não precisamos considerar todos os passados de ordem k, mas apenas aqueles relevantes que, em geral, são em número bem menor.grandes de k. A estimação dos parâmetros do modelo VLMC pode ser feita de maneira consistente através do critério de informação Bayesiano (BIC). O estimador BIC consiste em penalisar a máxima verossimilhança pelo número de parâmetros a serem estimados, estabelecendoum equilíbrio entre a verossimilhança e o número de parâmetros do modelo. Nesse trabalho foi utilizada a metodologia BIC para estimar as VLMC's baseado no algoritmo proposto no artigo de Csiszar e Talata(2006). Construímos um programa na linguagem R www.r-project.org) para fazer a estimação das VLMC e utilizamos umavariante desse algoritmo, proposto em Galves et al (2011), para estimar os valores das constantes de penalização C de cada VLMC candidata dada uma amostra da cadeia. Uma constante ótima de penalização é obtida mudando os valores da constante de penalização e escolhendo aquela que agrega um valor signicativo à verossimilhança . Para cada valor de C, temos um valor da penalização da verossimilhança, obtendo assim uma sequência de constantes de penalização Cn > Cn..1 > : : : > Copt, que chamamos de Assinatura da Amostra. E de acordo com a assinatura deixada pela amostra, encontramos um padrãode diferenciação entre textos do Corpus Histórico Tycho Brahe (www.tycho.unicamp.br) através da metodologia das Equações de Estimação Generalizadas (GEE) que vai de encontroà conjectura linguística que diz que houve mudança no ritmo do Português Brasileiro por volta do século 17.
Abstract:	The analysis of a stochastic model to describe realistically a practical situation is a hallenge often insurmountable, especially because the real phenomena exhibit dierent dependencies. In this context the Markov models play a fundamental role, since they allow more ecient solutions. A Markov chain fXt; t 2 Zg of order k taking values on an alphabet A nite, has jAjk(jAj .. 1) parameter to be estimated. This number growsexponentially in k, and therefore a more viable alternative in terms of estimation, is the use of variable length memory chains (VLMC), also known in literature as Probabilistic Context Tree (PCT), since in this model we have, in general, to estimate fewer parameters. In this work we introduce the Sample Signature of a Probabilistic Context Tree (PCT) or VLMC, as a way to distinguish samples of discrete random variables coming from dierent sources. The PCT model is much more interesting than Markov chains of xed order because it is more parsimonious in the sense that we need fewer parameters to describe it. Moreover, we introduce the Sample Signature of a PCT and show that it can bring more information about the generating source than the model itself. We face in this work the challenge of prosodic patterns detention in the written texts of the Historical Portuguese Corpus Tycho Brahe by using the Sample Signatures of the texts. We also use the Generalized Estimating Equation marginal model as a tool to obtain the results.
Asunto:	Estatística
Idioma:	Português
Editor:	Universidade Federal de Minas Gerais
Sigla da Institución:	UFMG
Tipo de acceso:	Acesso Aberto
URI:	http://hdl.handle.net/1843/ICED-8TFFLC
Fecha del documento:	25-nov-2011
Aparece en las colecciones:	Dissertações de Mestrado

archivos asociados a este elemento:

archivo	Descripción	Tamaño	Formato
mestradowesley.pdf		797.24 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo del elemento Visualizar estadísticas