Use este identificador para citar o ir al link de este elemento: http://hdl.handle.net/1843/44448
Tipo: Tese
Título: Desenvolvimento de módulo de recursos lexicogramaticais baseado em regras para realização superficial em tarefas de geração de língua natural em português brasileiro
Autor(es): André Luiz Rosa Teixeira
primer Tutor: Adriana Silvina Pagano
primer Co-tutor: Thiago Castro Ferreira
metadata.dc.contributor.advisor-co2: http://lattes.cnpq.br/2814274393370791
primer miembro del tribunal : Yohan Bonescki Gumiel
Segundo miembro del tribunal: Igor Antônio Lourenço da Silva
Tercer miembro del tribunal: Evandro Landulfo Teixeira Paradela Cunha
Cuarto miembro del tribunal: Kícila Ferreguetti de Oliveira
Resumen: A Geração de Língua Natural (GLN), subárea do Processamento de Língua Natural (PLN), é um tópico que faz parte da agenda, desde o século passado, das Ciências da Computação – Linguística Computacional e, como uma área de pesquisa interdisciplinar por natureza, é abordada por diferentes perspectivas, dentre elas, a Linguística Aplicada. No escopo da Linguística Sistêmico-Funcional (LSF), o campo dos Estudos Multilíngues, proposto por Matthiessen et al. (2008), contempla uma interação entre os Estudos Linguísticos e campos correlatos, como a Linguística Computacional e promovem a integração dos estudos linguísticos aplicados, teóricos e descritivos, ou seja, nos modos reflexivo, teorização e descrição visando à comparação entre línguas e ativo, visando à aplicação dos resultados alcançados no modo reflexivo, o que enseja a inserção da Linguística Computacional no escopo da LSF. Iniciativas de implementação de recursos lexicogramaticais no âmbito da Geração de Língua Natural remontam ao século passado, e contemplam o desenvolvimento de gramáticas orientadas à geração de língua natural para diversas línguas, dentre elas o inglês, alemão, chinês, espanhol, e português brasileiro. A iniciativa de desenvolvimento de recursos lexicogramaticais para a realização superficial/textual que contempla o português brasileiro ancorada na LSF limita-se aos significados de espacialidade no domínio de textos turísticos e restringe-se aos recursos lexicogramaticais necessários para a construção das orações que compõem o corpus de teste do estudo (OLIVEIRA, 2013), e portanto, não é independente de domínio/tarefa. Esta tese se insere no campo dos Estudos Multilíngues, modelado no escopo da Linguística Sistêmico-Funcional, no modo ativo de investigação e adota a perspectiva da teorização da Linguística Computacional sob a perspectiva dessa teoria linguística. Nesse cenário, esta tese tem como objetivo principal explorar os recursos de Geração de Língua Natural para elucidar processos que dizem respeito à produção de significados, mais especificamente, desenvolver um módulo de realização superficial/textual, baseado em regras e independente de domínio, que contempla a escala de ordens (do morfema à oração) do português brasileiro, para aplicação na tarefa de realização superficial em linhas de produção de sistemas de geração de língua natural. Esta tese tem, ainda, como objetivos secundários: realizar experimentos com testes comparativos de acurácia entre o módulo de recursos lexicogramaticais baseado em regras e resultados das Redes Neurais desenvolvidas no âmbito do projeto CoNLL-SIGMORPHON (COTTERELL et al., 2017; COTTERELL et al., 2018) na tarefa de flexão verbal nos corpora de desenvolvimento e teste compilados no âmbito do SIGMORPHON; e realizar experimentos de aplicação das funções do módulo de recursos baseado em regras para a flexão verbal na subtarefa de realização textual na linha de produção de uma instância local do robô-jornalista @DaMataReporter1 . A programação do realizador textual baseado em regras do português brasileiro independente de domínio foi desenvolvida na linguagem de programação Python, contemplando toda a escala de ordens lexicogramatical do português brasileiro, pautando-se pela perspectiva trinocular: ‘de cima’, observando-se os significados semânticos realizados no estrato lexicogramatical, tendo como ponto de referência a oração; ‘de baixo’, observando-se padrões grafológicos do estrato de expressão e como unidades de dada ordem encerram funções na ordem imediatamente superior na escala; e ‘ao redor’ como os sistemas organizam os significados em cada uma das ordens da escala, com base nas descrições de base Sistêmico- Funcional do português brasileiro disponíveis. O domínio selecionado para a aplicação do realizador superficial baseado em regras desenvolvido nesta tese é o desmatamento da Amazônia Legal no território brasileiro. O @DaMataReporter realiza postagens jornalísticas, apresentando dados sobre o desmatamento na Amazônia Legal, automaticamente, em rede social e faz parte de iniciativas que visam à publicação de dados abertos, disponibilizados por entidades públicas, levando informações sensíveis a amplo público. Esta pesquisa tem potencial de contribuição no âmbito de pesquisas a) descritivas: validando as descrições de base Sistêmico-Funcional já desenvolvidas para o português brasileiro; b) teóricas: na medida em que testa e valida descrições ancoradas no modelo teórico Sistêmico-Funcional, estabelecendo uma potencial retroalimentação da teoria linguística; c) aplicadas: tanto no âmbito de aplicação direta em sistemas de geração de língua natural, a exemplo do @DaMataReporter, quanto no âmbito educacional, oferecendo subsídios para o treinamento de tradutores, suporte na etapa de análise contrastiva de textos em relação de tradução, ensino de língua, descrição e teoria linguística, dentre outras. Dado o objetivo principal da tese, foi possível programar os principais sistemas que organizam: na ordem da palavra – o verbo e o substantivo, e funções para a realização do advérbio e preposições; na ordem do grupo – os principais sistemas que realizam o grupo nominal (taxonomia do Ente, sistemas de determinação, classificação, qualificação, e o grupo verbal (tipo de evento, agência, finitude, tempo secundário, aspecto verbal, e dêixis modal), bem como funções para realização de frase preposicional e grupo adverbial; na ordem da oração – os principais sistemas que organizam a oração (transitividade, modo: modelagem parcial/preliminar, seleção de escolhas mais prototípicas – modo declarativo e interrogativo polar; tema: modelagem parcial, restrito à escolha de tema_default e alguns casos de tema_proeminente_papel_transitivo_participante). Os resultados mostraram que a modelagem de recursos lexicogramaticais para a realização superficial do português brasileiro, sob uma perspectiva Sistêmico-Funcional, e baseada em regras, pode ser uma alternativa produtiva a longo prazo, pois possibilita maior controle nesta fase do processo de geração, especialmente em sistemas de geração que não tenham arquiteturas end-to-end.
Abstract: Natural Language Generation (NLG), a sub-area of Natural Language Processing (NLP), is a research area that has been on the agenda of both Computer Sciences and Linguistics for nearly a century. As an area of interdisciplinary research by nature, NLP draws on different disciplines, one of which is Applied Linguistics. Drawing on Systemic-Functional Linguistics, the area of Multilingual Studies as proposed by Matthiessen et al. (2008) contemplates an integration of Linguistics and related fields of investigation, such as Computational Linguistics. This field of investigation promotes the articulation of modes of integration: reflexive – theorizing and description of language production aiming at the contrast between languages and active – aiming at the application of the findings in the reflexive mode (such as the development of NLG programs), allowing the investigation of Computational Linguistics within the scope of SFL. The programming of lexicogramatical resources from different languages, such as English, German, Chinese, Spanish, and Brazilian Portuguese, for Natural Language Generation, dates back to the last century. Drawing on SFL, in Brazilian Portuguese, one initiative is available that models the spatial language in the domain of tourist texts, and models the lexicogramatical resources necessary for the realization of the clauses in the corpus of the study (see Oliveira (2013)). The resources developed in Brazilian Portuguese, are, thus, not domain independent. This thesis draws on Computational Linguistics within a Systemic-Functional Linguistics framework and Multilingual Studies (active mode of investigation) to explore Natural Language Generation as a resource to investigate meaning production processes. More specifically, this thesis aims primarily at developing a rule-based domain independent textual realization module that covers the lexicogramatical rank scale of Brazilian Portuguese, for applications in NLG. Furthermore, this thesis also aims to carry out experiments that contrast the acuracy of the ruled based system and artificial neural networks developed within CoNLL- SIGMORPHON (COTTERELL et al., 2017; COTTERELL et al., 2018) shared task for verbal inflection in domain independent dev and test corpora of verbs; also, to apply the rule based module for the sub-task of textual realization of verbs in the pipeline of a local instance of the robot journalist @DaMataReporter. The programming of the lexicogramatical resources for textual realization of Brazilian Portuguese was carried out in Python programming language. The development made use of a trinocular perspective: “from above”- examining semantic figures realized by clauses in the lexicogramatical stratum; “from below” - examining graphological patterns in the stratum of expression and modeling the constituency patterns along the rank scale, whereby units of a given order function in the order immediately above on the scale; and “from roundabout” - modeling the systems that organize the meanings in each order of the rank scale. The programming of the resources for superficial realization drew on available Systemic- Functional descriptions of Brazilian Portuguese, and on relatively congruent systems ofEnglish when such descriptions were not available. The domain selected for the application of the rule-based module developed in this thesis is the deforestation of the Legal Amazon in the Brazilian territory, a sensitive and pressing matter broadly discussed internationally. @DaMataReporter, a robot-journalist which posts data on the deforestation Of the Amazon, is part of initiatives that aim at generating text from publicly available data, to raise awareness about sensitive matters. This research has the potential to contribute to a) descriptive research: validating the Systemic-Functional descriptions of systems in Brazilian Portuguese; b) theoretical research: insofar as it tests and validates descriptions that draw on Systemic-Functional theory; c) applied research: in the educational field – offering results that inform translator training; basis for contrastive analysis of texts in contact through translation; language teaching; description and linguistic theory. This research enabled the computational implementation of the main systems that organize units in the lexicogrammar of Brazilian Portuguese: at word rank – the verb and the noun, and functions for the realization of adverb and prepositions; at group rank, the main systems that organize the nominal group: the taxonomy that organize the Ente (Thing), and the systems of determinação (determination), classificação (classification), qualificação (qualification) and quantificação (quantification); and the verbal group: tipo de evento (event type), agência (agency), finitude (fineteness), tempo secundário (secondary tense), aspecto verbal (aspect), and dêixis modal (modal deixis), as well as functions for the construction of prepositional phrases and adverbial groups; at clause rank, the main systems: transitividade (transitivity); modo (mood: partially implemented – declarative and polar interrogative options); tema (theme: partially implemented – options for tema_default (default theme)). Results showed that rule-based development of lexicogramatical resources for domain independent textual realization of Brazilian Portuguese, in the scope of Systemic-Functional theorization of Computational Linguistics, can be a long-term productive alternative, as it allows a greater control at this stage of the language generation process in the pipeline, specially in the application in sensitive domains.
Asunto: Tradução e interpretação
Funcionalismo (Linguística)
Idioma: por
País: Brasil
Editor: Universidade Federal de Minas Gerais
Sigla da Institución: UFMG
Curso: Programa de Pós-Graduação em Estudos Linguísticos
Tipo de acceso: Acesso Aberto
metadata.dc.rights.uri: http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
URI: http://hdl.handle.net/1843/44448
Fecha del documento: 17-feb-2022
Aparece en las colecciones:Teses de Doutorado

archivos asociados a este elemento:
archivo Descripción TamañoFormato 
ANDRE_TESE_versao_final.pdf9.17 MBAdobe PDFVisualizar/Abrir


Este elemento está licenciado bajo una Licencia Creative Commons Creative Commons