Please use this identifier to cite or link to this item:
Type: Tese de Doutorado
Title: Statistical analyses in language usage
Authors: Leonardo Carneiro de Araujo
First Advisor: Hani Camille Yehia
First Referee: Antonio de Padua Braga
Second Referee: Ricardo Hiroshi Caldeira Takahashi
Third Referee: Adriano Vilela Barbosa
metadata.dc.contributor.referee4: Eleonora Cavalcante Albano
metadata.dc.contributor.referee5: Rafael Michelin Laboissiére
Abstract: A linguagem possui uma fun¸cao social fundamental, ela ´e uma forma de comunicação amplamente utilizada, dinâmica, robusta e ainda assim tao simples; uma faculdade espec´fica dos humanos, capaz de levar nossos pensamentos e talvez a ´unica caracter´stica que nos distinga de outras esp´ecies; e ainda tao pouco compreendida.Aproximadamente de 3000 a 7000 l´nguas sao faladas nos dias atuais, todas possuem diferen¸cas marcantes em rela¸cao `as outras, entretanto possuem muito em comum. Pesquisas recentes em ciencias cognitivas demonstraram que os padroes de uso influenciamfortemente a maneira como a linguagem ´e percebida, adquirida, utilizada e como ela muda ao longo do tempo. Defende-se que as l´nguas sao sistemas auto organizativos, e que o pr´oprio uso da linguagem cria e molda o que elas sao. Atribui-se a competencia lingu´stica de um falante a um fenomeno auto organizativo, ao inv´es de uma hip´otese inata. O prop´osito deste estudo ´e desenvolver uma an´alise estat´stica do uso da l´ngua a partir da investiga¸cao minuciosa da lei de Zipf e outras leis de lingu´stica quantitativa. Iremos desenvolver uma abordagem emp´rica sistem´atica de investiga¸cao dos fenomenos atrav´es de t´ecnicas estat´sticas, matem´aticas e computacionais. Primeiramente faremos uma an´alise horizontal ao longo de diferentes l´nguas utilizando o banco de dados de invent´arios fonol´ogicos segmentais criado pela UCLA. Esta an´alise ser´a seguida por uma an´alise vertical investigando os padroes do Ingles em diferentes n´veis estruturais lingu´sticos. Al´em dos resultadosobtidos para a lei de Zipf, uma an´alise sob a ´otica da teoria da informa¸cao ´e feita para entender a rela¸cao de compromisso entre eficiencia em transmissao de informa¸cao de uma l´ngua e complexidade da linguagem. Observamos que as propriedadesdos elementos lingu´sticos e suas inter-rela¸coes seguem leis universais (no sentido estoc´astico). Estas an´alise sao importantes para a compreensao quantitativa de conceitos lingu´sticos que sao bem conhecidos de forma qualitativa, fornecendo assim os meios para entender o uso da l´ngua e sua evolu¸cao. Entender como funcionamas l´nguas e como elas evoluem pode ser a ´unica maneira de se criar artefatos tecnol´ogicos que realmente possuem uma capacidade de comunica¸cao equipar´avel `a humana, sendo assim capaz de entender e produzir senten¸cas/elocu¸coes semelhantes aquelas produzidas pelos homens.
Abstract: Language has a fundamental social function, it is a widely used mean of communication, dynamic, robust and still so simple; a specific human capacity, capable of carrying our thoughts and maybe the only feature that make us humans fundamentally different from other species, and still so vaguely understood. Approximately from 3000 to 7000 languages are spoken nowadays, all of them hold remarkable distinctions one from another, but still have much in common. Recent research on cognitive sciences has concluded that patterns of use strongly affect how language is perceived, acquired, used and changes over time. It is argued that languages are self-organizing systems, and that language usage creates and shapes what languages are. The linguistic competence of a speaker is attributed to self-organization phenomena, but not to a nativist hypothesis. The purpose of this study is to develop statistical analyses of language usage based on a detailed investigation of the Zipfs law and other laws of quantitative linguistics. We will develop a systematic empirical investigation of phenomena via statistical, mathematical and computational techniques. We carry out, first, a horizontal analysis across different languages using the UCLA Phonological Segment Inventory Database. This analysis is followed by a vertical investigation of English patterns in different linguistic structural levels. In addition to the results obtained with Zipfs law, information theoretical analyses are done in order to understand the trade-off between the efficiency of language information transmission and language complexity. We observe that the features of linguistic elements and their interrelations abide by universal laws (in the stochastic sense). These analyses are important for a quantitative comprehension of linguistic concepts that are already well known qualitatively, providing a means to understand the processes underlying language usage and evolution. Understanding how languages works and evolves might be the only hope to create technological artifacts that truly exhibit human-level communication capabilities, being able to understand and produce human-like sentences/utterances.
Subject: Lingüística
Teoria da informação
Engenharia elétrica
language: Inglês
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
Rights: Acesso Aberto
Issue Date: 16-Oct-2013
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
thesis.pdf4.31 MBAdobe PDFView/Open

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.