Filol. Linguíst. Port., São Paulo, v. 20, n. Esp., p. 139-157, 2018 https://doi.org/10.11606/issn.2176-9419.v20iEspecialp139-157 Rocha B, Mello H, Raso T. Para a compilação do C-ORAL-ANGOLA... Para a compilação do C-ORAL-ANGOLA: um corpus de fala espontânea informal do português angolano Toward the compilation of C-ORAL-ANGOLA: an informal spontaneous speech corpus of Angolan Portuguese Bruno Rocha* Universidade Federal do Pará, Altamira, PA, Brasil Heliana Mello** Universidade Federal de Minas Gerais, Belo Horizonte, MG, Brasil Tommaso Raso*** Universidade Federal de Minas Gerais, Belo Horizonte, MG, Brasil Resumo: O trabalho apresenta a arquitetura e os critérios de compilação de um corpus de fala espontânea do português angolano. Após uma breve contextualização da realidade linguística de Angola, são apresentados em detalhe as modalidades de gravação e o tratamento das diferentes variações sociolinguísticas documentadas, destacando-se a atenção à variação diafásica. Em seguida, são detalhados os primeiros 27 textos gravados, que formarão um minicorpus de pelo menos 30.000 palavras, segmentado prosodicamente e oferecendo o texto alinhado ao sinal sonoro. A última parte do artigo é dedicada à discussão dos passos metodológicos da compilação do corpus: definição da qualidade acústica, critérios de transcrição, procedimento de segmentação prosódica, revisão, alinhamento e validação estatística. Palavras-chave: Português angolano. Fala espontânea. Corpus. Compilação. Abstract: The paper introduces the architecture and compilation criteria for an Angolan Portuguese spontaneous speech corpus. After a brief introduction about the linguistic scenario in Angola, we present an in-depth description of the recording modalities and treatment related to the multiple sociolinguistic variations documented, with special attention to diaphasic variation. The first twenty-seven recorded texts are then detailed. These will make up a minicorpus, portraying at least 30,000 words. The minicorpus will be prosodically segmented and will display text-to-speech alignment. The last part of the article is dedicated to the methodological steps taken for the corpus compilation: acoustic quality definition, transcription criteria, prosodic segmentation procedures, revision, alignment and statistic validation. Keywords: Angolan Portuguese. Spontaneous speech. Corpus. Compilation. * Professor Adjunto, Faculdade de Letras, Universidade Federal do Pará, Altamira, PA, Brasil; bbruno791@gmail.com ** Professora Titular, Faculdade de Letras, Universidade Federal de Minas Gerais, Belo Horizonte, MG, Brasil; hmello@ufmg.br *** Professor Titular, Faculdade de Letras, Universidade Federal de Minas Gerais, Belo Horizonte, MG, Brasil; tommaso.raso@gmail.com Filol. Linguíst. Port., São Paulo, v. 20, n. Esp., p. 139-157, 2018 140 e-ISSN 2176-9419 1 INTRODUÇÃO Neste artigo apresentamos os primeiros textos relativos à compilação de um corpus de fala espontânea do português angolano, pensado segundo os moldes da família C-ORAL, mais precisamente o C-ORAL-ROM (Cresti, Moneglia 2005), para as quatro principais línguas românicas europeias, e o C-ORAL-BRASIL (Raso e Mello 2012 e no prelo) para o português brasileiro (PB). Entre os dias 10 e 20 de julho de 2018 foram realizadas 28 gravações do português falado em Angola. Entre elas foram escolhidos os textos destinados a entrar no corpus e principalmente aqueles que serão utilizados para compor um minicorpus de português angolano etiquetado informacionalmente com base na Language into Act Theory (L-AcT; Cresti 2000; Moneglia, Raso 2014). Chamamos de minicorpus o conjunto de textos destinados a serem etiquetados informacionalmente e a serem inseridos em um corpus mais amplo. Ao longo do artigo, nos referimos portanto ao minicorpus, objeto específico deste texto, e ao corpus como duas entidades distintas, mesmo se fortemente correlacionadas. L-AcT é uma extensão da teoria dos atos de fala de Austin (1962) que individualiza no enunciado, pragmaticamente e prosodicamente marcado, a interface entre ato locutivo e ilocutivo. A ilocução é a única unidade informacional necessária e suficiente para a a realização do enunciado, mas frequentemente (cerca de 50% dos casos) os enunciados são compostos pela ilocução e outras unidades informacionais não ilocucionárias. As unidades informacionais são tendencialmente isomórficas com as unidades entoacionais. Portanto, um corpus estudável segundo os pressupostos da L-AcT (mas não somente com base nela) precisa possuir pelo menos duas características (aprofundadas ao longo do trabalho): uma forte variação diafásica (o que estimula a emergência da variabilidade ilocucioária e informacional) e uma segmentação prosódica, que marca as fronteiras das unidades entonacionais/informacionais e dos enunciados. O minicorpus será formado por pelo menos 30.000 palavras, distribuídas em no mínimo 20 textos, e será perfeitamente comparável com os minicorpora já constituídos no Laboratório de Estudos Empíricos e Experimentais da Linguagem (LEEL) da UFMG e no laboratório LABLITA da Universidade de Florença. No LEEL foram desenvolvidos minicorpora de PB informal (Mittmann, Raso 2011), de PB em contexto telefônico (Raso et al. em preparação), e de inglês americano informal (Cavalcante, Ramos 2016); no LABLITA foram desenvolvidos minicorpora de italiano (Panunzi, Mittmann 2014) e de espanhol (Nicolas Martinez, Lombán no prelo). Com a exceção do minicorpus de inglês, os minicorpora são acessíveis através da plataforma IPIC (Panunzi, Gregori 2011), que permite também diferentes tipos de busca nos corpora que a integram. Ao longo do artigo, para cada aspecto metodológico relativo à compilação do minicorpus, discutiremos em que medida os diferentes recursos da família C-ORAL podem ser considerados comparáveis. Filol. Linguíst. Port., São Paulo, v. 20, n. Esp., p. 139-157, 2018 141 e-ISSN 2176-9419 O corpus angolano integra o projeto Libolo1, coordenado por Carlos Figueiredo da Universidade de Macau e por Márcia Oliveira Santos da USP que, entre outros méritos, tornaram possível essa missão em Angola. Além do apoio e logística proporcionados pelos coordenadores do projeto Libolo, foi muito importante a participação de Graciette Matta, que proporcionou a viabilização de muitas das oportunidades de gravação e deu assistência constante à nossa equipe. As gravações foram todas realizadas no município do Libolo situado na região do Kwanza Sul, não distante da região da capital Luanda. A maior parte dos textos foi coletada na cidade de Calulo, enquanto outros foram coletados na comuna do Quissongo, uma comunidade rural próxima de Calulo e na comuna de Kabuta. Os falantes gravados são todos falantes de português língua materna ou falantes bilíngues equilibrados de português/kimbundu ou português/kibala, sem que seja possível identificar uma única língua de competência nativa. 2 O CONTEXTO LINGUÍSTICO Segundo os dados do Ethnologue (Simons, Fenning 2018), em Angola estão presentes falantes nativos de 4 grandes famílias linguísticas (dados de 2016): (i) a família indo-europeia, com cerca de 12.300.000 falantes cuja língua nativa é representada quase exclusivamente pelo português; (ii) a família níger-congo com quase 14.000.000 de falantes nativos é representada por 41 línguas; (iii) a família kx’a com pouco mais de 11.000 falantes é representada por 2 línguas; (iv) a família khoe- kwadi com apenas 200 falantes é representada por uma única língua. As duas últimas famílias são limitadas a enclaves presentes apenas no extremo sul do país, mais ou menos próximos à fronteira com a Namíbia. A região do Libolo, situada ao sudeste da capital, é uma região onde, além do português, se fala o kimbundu ou uma variedade dele chamada kibala ou ngoya (ou identificada através de outros nomes também), própria da transição entre kimbundu e umbundu. Trata-se de uma região prevalentemente cristã, com cidades pequenas e uma ampla área rural. O umbundu é a principal língua africana falada em Angola com cerca de 6.000.000 de falantes nativos (dados de 2012). O kimbundu é língua materna de cerca de 1.500.000 de falantes (dados de 2015). Sua importância é devida também ao fato de ser a língua tradicionalmente falada em Luanda, apesar de a guerra civil ter mudado profundamente a identidade linguística da capital. O kibala, próprio do Libolo, tem, segundo dados de 2000, apenas 2.600 falantes nativos, mas é a variedade banta com a qual se identificavam diversos dos falantes bilíngues gravados, que a chamavam de ngoya. 1 O projeto Município do Libolo, Kwanza Sul, Angola: aspectos linguístico-educacionais, históricoculturais, antropológicos e sócio-identitários, também conhecido como Projeto Libolo, é parcialmente financiado pela Universidade de Macau e por entidades privadas filantrópicas de Angola. Trata-se de um projeto internacional e multidisciplinar cujos pesquisadores intervêm, de forma articulada, em pesquisas nas áreas de Linguística, História, Antropologia, Filologia e Acções Pedagógicas. O Projeto Libolo está devidanente patenteado pelo Centro de Investigação e Desenvolvimento (R&DAO) da Universidade de Macau, sob o número de referência SRG011-FSH13-CGF, encontrando-se, desta forma, ao abrigo da vigente protecção de direitos autorais de propriedade intelectual designada por “Copyright © 2016, R&DAO University of Macau”. Filol. Linguíst. Port., São Paulo, v. 20, n. Esp., p. 139-157, 2018 142 e-ISSN 2176-9419 Segundo dados da Central Intelligence Agency relativos a 2015, Angola possui um índice de alfabetização da população a partir dos 15 anos de 71,1% (82% entre os homens e 60,7% entre as mulheres), ocupando o 130o lugar entre 162 países. Como dados comparativos, citamos apenas o Brasil (86o lugar) com 92,6%, Portugal (62o lugar) com 95,7% e a média mundial com 86,2%. 3 MODALIDADES DE GRAVAÇÃO As gravações foram realizadas em duas modalidades técnicas distintas, dependendo do número dos participantes de cada sessão. Na primeira modalidade, com apenas um ou dois falantes principais, foram utilizados um gravador Marantz (pmd 660) ou Tascam (DR-100 MKII) e microfones de lapela sem fio (Transmitters Bodypack Transmitter SK 100 G3 e Receivers Diversity Receiver EK 100 G3), permitindo assim que os falantes se locomovessem com liberdade durante o período de gravação, resultando portanto em gravações de uma maior variedade de situações. Na segunda modalidade, quando os falantes principais eram mais de dois, era utilizado também um mixer (Behringer Xenyx 1222fx) para além dos equipamentos já descritos, a fim de permitir o uso de mais de dois microfones para os dois canais de gravação. O número máximo de microfones usados foi seis, mas em algumas gravações se superou esse número de participantes. Nesse caso os microfones foram posicionados de modo a aumentar as probabilidades de gravar todas as vozes com a melhor qualidade possível. Todo o equipamento era móvel, com a exceção do mixer. Isso significa que apenas as gravações de conversações (diálogos com mais de dois participantes principais) obrigavam os falantes a estarem a uma distância de não mais de 30-50 metros do gravador, que não podia ser movido por estar ligado ao mixer. Nas gravações com 2 microfones o gravador podia ser movido no caso de os participantes se afastarem do ponto de início da gravação. Por falantes principais entende-se aqueles falantes que estavam previstos na fase de planejamento da gravação e aos quais foram aplicados os microfones. Contudo, nas situações de fala espontânea em um contexto natural é frequente que durante a situação planejada para a gravação se insiram outros falantes não previstos. Quando isso acontece, os falantes não previstos podem ou não ser captados adequadamente pelos microfones. Isso, somado a outros fatores, condiciona a qualidade da gravação. Em situações específicas, aconteceu de os falantes se afastarem do gravador em direções opostas por alguns minutos. Nesses casos o gravador não podia ser movido, já que a direção do movimento dos falantes gravados era distinta; as consequências, dependentes das decisões tomadas pelos pesquisadores no momento em que isso ocorria foram várias; as diversas decisões tomadas, finalizadas a minimizar os danos à qualidade acústica, foram as seguintes: excluir momentaneamente um ou mais falantes da gravação, desligando um ou mais microfones (essa foi a decisão tomada tipicamente em casos de conversações com muitos falantes); isolar um canal para evitar que o afastamento de um dos falantes gerasse ruído que comprometesse a fala do outro falante principal, que continuava interagindo com falantes sem microfones (essa decisão foi frequente em situação como aquelas em que dois vendedores de uma loja ou de um mercado, portadores dos microfones, interagiam com clientes, e um dos falantes principais se afastava, ou em situações comparáveis). Em geral, as gravações duraram muito tempo (em média entre uma e duas horas), tornando Filol. Linguíst. Port., São Paulo, v. 20, n. Esp., p. 139-157, 2018 143 e-ISSN 2176-9419 possível a recuperação de um trecho suficientemente longo com qualidade acústica adequada. Os textos que serão transcritos para composição do minicorpus terão uma duração média de 1.500 palavras, ou seja, pouco mais ou pouco menos de 10 minutos, dependendo da tipologia textual, do grau de interação, das quantidades de silêncio propiciadas pela situação e da velocidade de fala dos falantes. Em nenhum caso os textos do minicorpus serão significativamente maiores que esse marco, para evitar a falta de balanceamento; em alguns casos os textos poderão ser menores, mas sempre salvando a integridade textual. Vale uma observação de ordem ética. Na realidade angolana, e ainda mais em uma cultura substancialmente tradicional e rural como aquela do Libolo, não é possível apresentar aos falantes o termo de consentimento que é elaborado por um comitê de ética a ser lido e assinado, como aconteceu no caso de todos os corpora da família C-ORAL. Quem concede a permissão para a gravação e transmite aos falantes a garantia de confiabilidade nos pesquisadores, em geral, é o Soba. O Soba, assistido pelos Sobetos, é de fato a maior autoridade civil da comunidade, desde os tempos pré-coloniais. Ele exerce a função de ligação entre a comunidade e o governo. Mesmo em centros maiores, cada bairro possui o seu Soba. O Soba Grande tem autoridade sobre os Sobas de uma determinada região. De fato, antes de começar as gravações, nos encontramos com o Soba Grande de Calulo, para nos apresentar e pedir a autorização para as gravações. A autorização nos foi concedida e o Soba Grande tornou-se, inclusive, um dos falantes em uma de nossas gravações. As gravações futuras, que serão realizadas em grandes centros urbanos, serão acompanhadas por um termo de consentimento nos moldes dos outros corpora. 4 A VARIAÇÃO DIAFÁSICA O corpus tem como um de seus objetivos principais retratar a variação diafásica da fala angolana. A primeira divisão interna do corpus é em três grandes modalidades comunicativas: monólogos, diálogos e conversações (esta com mais de 2 e um máximo de 8 falantes principais, alcançando apenas o número máximo de 6 no minicorpus). Cada modalidade será representada no minicorpus com pelo menos 10.000 palavras. Para o corpus o objetivo é de cerca de 50.000 palavras por modalidade, de modo a alcançar um corpus de pelo menos 150.000 palavras. Se essa é a proporção ideal para representar as três modalidades (e constitui o objetivo do trabalho), o que importa mais é manter uma proporção de um terço de fala monológica e dois terços de fala dialógica (diálogos e conversações), já que a diferença estrutural entre conversações e diálogos é pequena (Raso, Mittmann 2012; Cresti 2005) Dentro da modalidade monológica se buscou variação entre gêneros textuais: explicações profissionais, relatos de experiências de vida, relatos de eventos ligados à história recente ou à cultura do lugar. Dentro das modalidades dialógica e conversacional se buscou a maior variedade situacional em função da maior variedade acional. Ao variarem a modalidade de fala e a situação, variam também a tipologia de atos de fala eliciados e a estruturação informacional dos enunciados, permitindo assim que sejam coletados dados com uma variação não limitada apenas ao nível morfossintático e lexical. Portanto, os pesquisadores buscaram gravar a Filol. Linguíst. Port., São Paulo, v. 20, n. Esp., p. 139-157, 2018 144 e-ISSN 2176-9419 maior variação possível de situações comunicativas, evitando a repetição da mesma situação e situações pouco acionais e repetitivas como bate-papos e entrevistas. As pessoas gravadas nas modalidades dialógica e conversacional estavam sempre empenhadas em uma atividade específica, como mostraremos mais à frente. É isso que garante o alto grau de interatividade e acionalidade das gravações da família C- ORAL, explicitamente desenhada para o estudo das ilocuções e da estruturação informacional em contexto natural (Moneglia 2005; Raso 2012; Raso, Mello 2014). 5 AS OUTRAS VARIAÇÕES A variação diatópica do minicorpus já foi indicada previamente. Contudo, se esse minicorpus reflete apenas a fala do Libolo, o corpus maior é destinado a refletir a fala de uma região mais ampla e com prevalência clara (pelo menos 50%) da fala de Luanda, assim como os outros corpora da família C-ORAL escolheram a diatopia de uma grande área urbana (Madri, Marselha, Florença, Lisboa, Belo Horizonte). Quanto à variação diastrática, o minicorpus (na medida do possível) e o corpus (com maior rigor) buscam equilibrar em número de palavras a fala masculina e aquela feminina, assim como os falantes das diversas faixas de escolarização e das diferentes faixas etárias. A distribuição das faixas de escolarização e de idade é ainda objeto de discussão, pois Angola não possui uma distribuição comparável àquela dos outros países da família C-ORAL2. Será portanto necessário conciliar as exigências de comparabilidade com os outros corpora com aquelas de representatividade da sociedade angolana. Em princípio, está sendo seguido o critério adotado no C- ORAL-BRASIL: três faixas de escolarização (1: até o primeiro grau incompleto; 2: até o terceiro grau, mas não usado na ocupação exercida; 3: superior) e cinco faixas etárias (M: menor de idade; A: até 25 anos; B: até 40 anos; C: até 60 anos; D: mais de 60 anos). A indicação do sexo é marcada com F (feminino) e M (masculino). Quando um dado é desconhecido, é marcado com ‘X’. Nos metadados aparece também a ocupação profissional e a origem específica dos falantes, além da descrição da situação, do lugar e do tópico da interação. Tomou-se especial cuidado para que houvesse diversidade de falantes no minicorpus. Nenhum falante poderá ultrapassar 1.700 palavras. Se um falante aparece em mais de uma gravação, o que acontece em apenas dois casos, será considerada a soma das palavras, nunca superior a 1.700. Nas gravações algumas poucas vezes aparece também a fala dos pesquisadores (que são brasileiros com a exceção de um italiano). As palavras dos pesquisadores não serão levadas em conta na contagem mínima de palavras. 2 O próprio C-ORAL-BRASIL modificou um pouco a indicação das faixas de escolaridade, pelo fato de o Brasil apresentar um quadro um pouco diferente daquele da realidade europeia. Filol. Linguíst. Port., São Paulo, v. 20, n. Esp., p. 139-157, 2018 145 e-ISSN 2176-9419 6 OS TEXTOS 6.1 Monólogos 1. Experiência de guerra. O falante conta para os pesquisadores a própria experiência na guerra civil como responsável da artilharia no sul do país. Falante de Luanda: sexo M; idade C; escolaridade 2; ocupação: dono de um escritório de despachante. Qualidade acústica B (veja a seção 7 sobre a qualidade acústica. 2. Passeio. Um jovem do lugar acompanha um dos pesquisadores em uma rápida visita no centro de Calulo. Falante 1 de Calulo: sexo M; idade B; escolaridade 2; ocupação: auxiliar lingüístico do projeto. Falante 2 brasileiro: sexo M; idade B; escolaridade 3; ocupação: professor universitário. Qualidade acústica AB. 3. Monólogo no hotel: A falante explica aspetos da própria profissão aos pesquisadores. Falante 1 de Calulo: sexo F; idade D; escolaridade 2; ocupação: oficial de notário. Falante 2 brasileira: sexo F; faixa etária C; escolaridade 3; ocupação: professora universitária. Falante 3 italiano: sexo M; faixa etária C; escolaridade 3; ocupação: professor universitário. Qualidade acústica AB. 4. Saudade do Libolo. Um falante da antiga elite colonial conta a própria parábola de vida ao pesquisador. Falante 1 de Calulo (que deixou aos 17 anos para Portugal e para onde voltou 20 anos depois): sexo M; faixa etária C; escolaridade 3; ocupação: contábil. Falante 2 italiano: sexo M; faixa etária C; escolaridade 3; ocupação: professor universitário. Qualidade acústica AB. 5. Na escola. Dois pequenos monólogos de professores de escola em reunião com visitantes do projeto Libolo. Falante 1 de Gabela (Ambuim, Kwanza Sul): sexo F; idade B; escolaridade 2; ocupação: professora de ensino primário. Falante 2 de Kabuta (Libolo): sexo F; idade B; escolaridade 2; ocupação: professora de ensino pré-escolar. Falante 3 de Calulo: sexo F; idade B; escolaridade X; ocupação: professora. Falante 4 de Calulo: sexo: M; idade C; escolaridade 2; ocupação: professor de ensino primário. Falante 5 brasileiro: idade C; escolaridade 3; ocupação: professor universitário. Qualidade acústica B. 6. Passeio na fazenda. (Kabuta) O falante conta uma história de guerra acontecida no lugar. Falante de Calulo: sexo M; idade B; escolaridade 3; ocupação: funcionário do município. Qualidade acústica: A. 7. No Kissongo. Falante de Calulo: sexo F; idade A; escolaridade 2; ocupação: supervisora de compras na fazenda. Qualidade acústica C. 6.2 Diálogos 1. Atendimento médico 1. Um médico atende alguns pacientes. Falante 1 de Lubango (Huila); sexo M; idade B; escolaridade 3; ocupação: médico. Falante 2 de Calulo: sexo F; idade M; escolaridade 1. Qualidade acústica AB. 2. Atendimento médico 2. O médico é o mesmo do Atendimento médico 1. Falante 1 de Lubango (Huila); sexo M; idade B; escolaridade 3; ocupação: médico. Falante 2 de Calulo: sexo F; faixa etária M; escolaridade 1. Qualidade acústica AB. 3. Pasteleiros. Dois confeiteiros que trabalham em um restaurante preparando pães e bolos a serem servidos em um evento no dia seguinte. Falante 1 de Filol. Linguíst. Port., São Paulo, v. 20, n. Esp., p. 139-157, 2018 146 e-ISSN 2176-9419 Calulo; idade: B; escolaridade: 1; ocupação: confeiteiro. Falante 2 de Calulo; idade: B; escolaridade: 2; ocupação: confeiteiro. Qualidade acústica AB. 4. Balneários. Duas faxineiras limpam os vestiários do estádio de Calulo depois de um jogo de futebol. Falante 1 de Calulo: idade B; escolaridade 1; ocupação: faxineira do clube Libolo. Falante 2 de Kabuta (Libolo): idade B; escolaridade 1; ocupação: faxineira do clube Libolo. Qualidade acústica BC. 5. Lavando o carro. Dois jovens de Calulo lavam carros a pagamento no Rio de Calulo. Falante 1 do Quissongo (Libolo): sexo M; idade A; escolaridade 2; ocupação: lavador de carro. Falante 2 do Quissongo (Libolo): sexo M; idade A; escolaridade 1; ocupação: lavador de carro. Qualidade acústica B. Durante a gravação outros lavadores de carro intervêm rapidamente. Qualidade acústica AB. 6. Cadastro no hospital. Dois atendentes do hospital conversam entre si enquanto fazem cadastro dos pacientes. Falante 1 de Mussafo (Malanje); sexo: M; idade B; escolaridade 2; ocupação: atendente no hospital de Calulo. Falante 2 de Calulo; sexo: F; faixa etária B; escolaridade 2; ocupação: atendente no hospital de Calulo. Qualidade acústica AB. Alguns pacientes aparecem rapidamente na interação. 7. Mercado. Uma cozinheira de restaurante vai ao mercado e negocia com uma vendedora. Falante 1de Calulo; idade B; escolaridade 1; ocupação: cozinheira de restaurante. Falante 2 de Calulo; idade B; escolaridade 1; ocupação: vendedora no mercado de Calulo. Qualidade acústica AB. 6.3 Conversações 1. Dominó. Um grupo de jovens joga um jogo de dados típico da região, que é chamado de dominó, na frente da casa de um deles. Falante 1 de Calulo: sexo M; idade A; escolaridade 1; ocupação: estudante. Falante 2 de Calulo: sexo M; idade M; escolaridade 1; ocupação: estudante. Falante 3 de Calulo: sexo M; idade A; escolaridade 1; ocupação: estudante. Falante 4: sexo M; idade M; escolaridade 1; ocupação: estudante. Qualidade acústica B. 2. Lanche. 5 Faxineiras lanchando em pausa do serviço. Falante 1 de Calulo: sexo F; idade B; escolaridade 2; ocupação: faxineira. Falante 2 de Calulo: sexo F; idade A; escolaridade 2; ocupação: faxineira. Falante 3 de Luanda: sexo F; faixa etária B; escolaridade X; ocupação: faxineira. Falante 4 de Calulo: sexo F; idade B; escolaridade 2. Falante 5 de Calulo: idade C; escolaridade 2; ocupação: faxineira. Qualidade acústica C. 3. Discoteca. Três jovens de Calulo conversam enquanto desmontam o equipamento de uma discoteca. Falante 1 de Calulo: sexo F; idade B; escolaridade 2; ocupação: secretária. Falante 2 de Calulo; sexo M; idade B; escolaridade 2; ocupação: dono de discoteca. Falante 3 de Calulo; sexo M; idade B; escolaridade 2; ocupação: colaborador linguístico do projeto. Qualidade acústica B. 4. Montando os gols. Três funcionários do Clube Recreativo Desportivo do Libolo montam pequenas traves para treinos de futebol. Falante 1 de Calulo; sexo M; idade A; escolaridade 1; ocupação: funcionário de serviços gerais. Falante 2 de Calulo; sexo M; idade B; escolaridade 1. Falante 3 da Uíge; idade C; escolaridade 1; ocupação: funcionário de serviços gerais. Qualidade acústica B. 5. Funcionários da fazenda Cleonas. Três funcionários da fazenda Cleonas conversam após o fim do expediente. Falante 1 de Calulo; sexo M; idade C; Filol. Linguíst. Port., São Paulo, v. 20, n. Esp., p. 139-157, 2018 147 e-ISSN 2176-9419 escolaridade 2; ocupação: administrador da fazenda. Falante 2 de Bangu- Uanga; idade D; escolaridade 1; ocupação: funcionário da fazenda. Falante 3 de Calulo; sexo M; idade D; escolaridade 1; ocupação: funcionário da fazenda. 6. Conversa na escola. Gravação realizada na escola da Missão Católica de Calulo, em um encontro com um professor brasileiro para discutir questões sobre a juventude em Calulo. Falante 1 de Calulo; sexo F; idade A; escolaridade 1; ocupação: estudante. Falante 2 de Calulo; sexo M; idade A; escolaridade 1; ocupação: estudante. Falante 3 do Kwanza Norte; sexo F; idade M; escolaridade 1; ocupação: estudante. Falante 4 de Dondo (mas mudou para Calulo no primeiro ano de vida); sexo M; idade A; escolaridade 1; ocupação: estudante. Falante 5 de Calulo; sexo M; idade A; escolaridade 1; ocupação: estudante. Falante 6 de Calulo; sexo F; idade A; escolaridade 1; ocupação: estudante. Falante 7 de Calulo; sexo M; idade A; 1; ocupação: estudante. Falante 8 de Calulo; sexo M; idade A; escolaridade 1; ocupação: estudante. Falante 9 brasileira; sexo F; idade A; escolaridade 2; ocupação: estudante. Falante 10 brasileiro; sexo M; idade C; escolaridade 3; ocupação: professor universitário. Qualidade acústica B. 7. Cozinha da pousada. Falante 1 de Calulo: sexo F; idade C; escolaridade 1; ocupação: chefe de cozinha. Falante 2 de Calulo: sexo F; idade C; escolaridade 1; ocupação: camareira. Falante 3 de Calulo: sexo M; idade A; escolaridade 2; ocupação: garçom. Falante 4 de Calulo: sexo M; idade A; escolaridade 2. Qualidade acústica AB. 8. Embalando presentes. Quatro amigas embalam presentes. Falante 1 de Calulo; sexo F; idade C; escolaridade 3; ocupação: conselheira e gestora hoteleira. Falante 2 de Luanda; sexo F; idade C; escolaridade 1; funcionária de serviços gerais no hotel. Falante 3 de Calulo; sexo F; idade C; escolaridade 1; ocupação: camareira de hotel. Falante 4 brasileira; idade C; escolaridade 3; ocupação: professora universitária. Qualidade acústica BC. 9. Papelaria. Os dois donos de uma papelaria interagem com os clientes.Falante 1 de Calulo; sexo M; idade B; escolaridade X; ocupação: dono de papelaria. Falante 2 de Calulo; sexo M, idade B; escolaridade X; ocupação: dono de papelaria. Qualidade acústica B. 10. Cozinha na fazenda. Conversa na cozinha do restaurante da Kabuta. Falante 1 da Kabuta; sexo M; idade B; ocupação: recepcionista. Falante 2 de Mucula dos Dambos; sexo F; idade B; escolaridade 1; ocupação cozinheira. Falante 3 do Libolo; sexo M; idade B; escolaridade 1; ocupação: cozinheiro. Falante 4 de XXX; idade X; escolaridade X; ocupação: dono do restaurante. Qualidade acústica B. 10. Soba. O Soba Grande de Calulo recebe a equipe do projeto e, junto com tia Ká, explica como é eleito o Soba e como são a vida e a morte de um Soba. Dois professores estrangeiros intervêm para fazer perguntas e comentários. Falante 1 de Calulo: M; faixa etária D; escolaridade 1; ocupação: Soba. Falante 2 de Calulo; F; faixa etária C; escolaridade 3; ocupação: conselheira e gestora hoteleira. Falante 3 de Calulo (mas vive fora de Calulo desde os 19 anos de idade); M; faixa etária D; escolaridade 3; ocupação: professor universitário. Falante 4 brasileira; F; faixa etária C; escolaridade 3; ocupação: professora universitária. Qualidade acústica AB. 11. Volta no mercado. Uma cozinheira e uma vendedora, que são amigas, dão uma volta nas várias lojas do mercado. Falante 1 de Calulo; faixa etária B; escolaridade 1; ocupação: cozinheira de restaurante. Falante 2 de Calulo; faixa etária B; escolaridade 1; ocupação: vendedora no mercado de Calulo. Filol. Linguíst. Port., São Paulo, v. 20, n. Esp., p. 139-157, 2018 148 e-ISSN 2176-9419 Outros falantes: donos de outras lojas. Não estão disponíveis os dados sobre estes falantes. Qualidade acústica B. 12. Cozinhando na fazenda. Conversação durante a preparação do almoço na fazenda Cleonas. Falante 1 de Kabuta (Libolo): sexo M; idade B; escolaridade 2; ocupação: recepcionista do restaurante. Falante 2 Mucula dos Dambos (Libolo); idade B; escolaridade 1; ocupação: cozinheira. Falante 3 do Libolo; idade B; escolaridade 1; ocupação: cozinheiro. Falante 4 de X; idade X; escolaridade X; ocupação: proprietário do restaurante. Qualidade acústica B. 13. Regando a grama. Três funcionários do Clube Recreativo Libolo regam a grama depois do jogo. Falante 1 de Calulo; sexo M; idade A; escolaridade 1; ocupação: funcionários de serviços gerais. Falante 2 de Calulo; sexo M; idade A; escolaridade 1; ocupação: funcionários de serviços gerais. Falante 3 de Calulo; sexo M; idade B; escolaridade 1; ocupação: funcionários de serviços gerais. Qualidade acústica C. 7 A QUALIDADE ACÚSTICA A qualidade acústica foi classificada nas opções A (melhor qualidade), AB, B, BC, C (pior qualidade aceita para o corpus). A avaliação leva em conta os seguintes critérios, com base na classificação de Raso (2012), integrada parcialmente com os critérios de Carrenho, Constantini, Barbosa (2017), considerando que este último trabalho classifica os áudios para finalidades diferentes das nossas: a) verificação da possibilidade de escuta; b) cálculo da relação sinal ruído do áudio, que deve ser feito em, no mínimo, dois pontos do arquivo (em trecho com maior presença de ruído e em trecho com menor concentração de ruído, escolhidos pela observação da forma de onda); b) verificação da possibilidade de cálculo da curva de frequência fundamental (f0); c) verificação da possibilidade de cálculo dos dois primeiros formantes nas vogais; d) identificação das fricativas e de sua concentração de energia; e) verificação da presença de ruído de fundo; f) verificação da presença de trechos com sobreposição de voz. Uma qualidade ideal deve permitir a análise dos formantes e uma curva de f0 confiável para quase toda a gravação. Uma gravação com o mínimo de aceitabilidade deve permitir a extração da f0 confiável para pelo menos 60% da gravação e ter uma boa resposta dos microfones. A tolerância é menor para os monólogos, média para os diálogos (que dependem fortemente da situação de gravação) e mais alta para as conversações (que, além de depender das características da situação, inevitavelmente levam a uma quantidade maior de sobreposições). É importante considerar que a variação situacional é objetivo prioritário do corpus, e portanto é inevitável aceitar gravações com qualidade acústica não ideal. Apresentamos a seguir imagens em Praat (Boersma, Weenink 2018) através de duas figuras. A Figura 1 mostra um enunciado típico na qualidade muito alta (A) e alta (AB), e a Figura 2 mostra um enunciado típico nas outras qualidades. As imagens Filol. Linguíst. Port., São Paulo, v. 20, n. Esp., p. 139-157, 2018 149 e-ISSN 2176-9419 ilustram principalmente a relação do sinal de voz com o ruído de fundo; os outros critérios levam à classificação específica dentro dos dois grandes grupos. Mais especificamente, um áudio avaliado como de qualidade muito alta ou alta possui quase sempre uma qualidade apropriada para quase todo tipo de análise fonética, poucas sobreposições de voz, quase nenhum ruído de fundo, computação da f0 possível em (quase) todo o arquivo, calculabilidade dos dois primeiros formantes das vogais, boa ou média identificação das fricativas e da concentração de energia das mesmas. A relação sinal-ruído do áudio é acima de 20 dB e frequentemente alcança ou supera 30 dB. As qualidades média e baixa indicam um áudio com uma boa quantidade de trechos apropriados para a análise fonética e, no mínimo, 60% dos trechos com um cálculo confiável da f0. São possíveis algumas dificuldades na identificação das fricativas e, em alguns casos, no cálculo do F2 das vogais. A escuta é sempre clara, com exceções muito localizadas. As sobreposições podem ser frequentes, mas sem comprometer os critérios mínimos mencionados. A relação sinal-ruído de fundo pode variar muito abaixo dos 20 dB, chegando em alguns trechos a ser até inferior a 10 dB. Figura 1 - Espectrograma de um enunciado com qualidade A ou AB Figura 2 - Espectrograma de um enunciado com qualidade B, BC ou C Contudo, em gravações como estas, a indicação da qualidade acústica deve ser tomada como uma síntese das características acústicas da gravação, e não necessariamente como uma referência constante. De fato, em contexto natural as condições acústicas são sujeitas a mudanças contínuas: dependendo das atividades, certos ruídos podem ser constantes ou não; em gravações com posição variável dos falantes o contexto acústico pode mudar rapidamente e constantemente; as sobreposições podem ser frequentes ou muito localizadas; as sobreposições podem Filol. Linguíst. Port., São Paulo, v. 20, n. Esp., p. 139-157, 2018 150 e-ISSN 2176-9419 se concentrar em alguns trechos ou serem distribuídas ao longo da interação. Portanto, se em alguns casos o julgamento da qualidade acústica pode ser tomado como uma característica mais ou menos constante do texto, em outros casos o mesmo texto apresenta características acústicas muito variáveis, e a qualidade deve ser considerada mais como uma média aproximada de características, até muito diferentes, que coexistem no texto. Essa observação é importante para quem busca somente trechos de qualidade alta: o fato de a gravação ter sido etiquetada como de qualidade média ou baixa não significa que não possua trechos de qualidade alta. 8 TRATAMENTO DOS DADOS Os dados serão tratados como nos casos dos outros corpora da família C- ORAL, tentando melhorar os aspectos qualitativos, como sempre tem ocorrido ao longo dos mais de dez anos de atividade do LEEL. As fases do tratamento dos dados são descritas em 8. 8.1 A transcrição Os textos serão transcritos com base na lógica adotada principalmente nos corpora de italiano e de PB (Mello et al. 2012). Nesses corpora os critérios preveem que, a partir da base dos critérios ortográficos, sejam individualizados os fenômenos potencialmente em curso de gramaticalização e lexicalização, e que esses casos sejam transcritos não ortograficamente a fim de que possam ser recuperados automaticamente através de um parser (vejam-se Bick 2012 e 2014). Os critérios devem contudo garantir um equilíbrio entre exigências diversas: a legibilidade dos textos, a recuperabilidade dos fenômenos interessantes, as exigências do parser, a necessidade de consistência por parte dos segmentadores. Esta última exigência merece talvez uma explicação, que pode melhor ser oferecida através de um exemplo: o PB apresenta formas dos pronomes pessoais plenas e reduzidas em todas as pessoas; contudo, se é fácil distinguir com coerência as variantes da segunda e da terceira pessoa (tanto no singular quanto no plural) você(s)/ocê(s)/cê(s); ele(s)/e, es; ea(s), não parece possível manter coerência nas formas ditongada e variamente monotongadas da primeira pessoa singular, ou nas formas com a vogal e sem a vogal da primeira pessoa plural (quando nós pode ser pronunciado com variantes aproximadamente constituídas por uma sibilante precedida por uma nasalização); portanto se mantem sempre as formas eu e nós. Nas primeiras pessoas é muito difícil encontrar acordo entre os transcritores e até entre momentos diferentes do mesmo transcritor. Isso não contribui para a recuperabilidade do fenômeno e apenas gera confusão; portanto é melhor renunciar a preservar o fenômeno através de um critério não ortográfico. No caso do corpus angolano os critérios adotados para o corpus de PB podem constituir uma boa base de partida, mas quase certamente deverão ser modificados em parte. De fato as duas variedades não compartilham todos os fenômenos que podem ser considerados potencialmente em curso de lexicalização ou gramaticalização; em alguns casos, formas que são candidatas interessantes a serem diferenciadas em PB podem ser transcritas ortograficamente na variedade angolana, a qual, por outro lado, apresentará outros fenômenos que merecem uma transcrição não ortográfica. As decisões a esse respeito podem ser tomadas somente depois de Filol. Linguíst. Port., São Paulo, v. 20, n. Esp., p. 139-157, 2018 151 e-ISSN 2176-9419 uma primeira transcrição de diversos textos e com base em uma discussão que envolve todos os transcritores. Durante a fase de transcrição do C-ORAL-BRASIL, com sete transcritores, se chegou a fechar os critérios somente depois de cerca de seis meses. Provavelmente, dada a experiência adquirida, o processo para este corpus poderá ser mais rápido, mas devemos ser prudentes a esse respeito, considerando que a maioria dos transcritores não será falante nativa da variedade angolana do português. 8.2 A segmentação prosódica É amplo o consenso na comunidade científica que um nível importante da organização da fala é constituído pelo agrupamento de poucas (às vezes apenas uma) palavras em unidades chamadas de unidades tonais, unidades entonacionais, grupos prosódicos ou com outras denominações (Barth-Weingarten 2016; Barbosa, Raso 2018; Izre’el et al. no prelo). A essas unidades, dependendo da teoria adotada, é atribuído um preciso valor funcional ou cognitivo. Essas unidades são separadas por fronteiras nitidamente perceptíveis pelos falantes (os testes mostram um acordo claramente superior a 80%, inclusive na fala espontânea). Na abordagem teórica que adotamos (que não é necessária para se utilizar o corpus), a unidade entonacional é tendencialmente isomórfica com a unidade informacional, incluindo a unidade que carrega a função ilocucionária. Portanto a segmentação prosódica é considerada essencial para os nossos estudos. Mas recentemente a segmentação prosódica tem se tornado quase a norma na compilação de corpora de fala espontânea (além dos corpora da família C-ORAL, vejam-se Du Bois et al. 2000-2005, Mettouchi et al. 2015, Izre’el e Rahav 2004, entre outros). A segmentação prosódica, de fato, não é importante apenas para quem atribui valor funcional linguístico às unidades entonacionais, mas parece o elemento proeminente para identificar unidades necessárias para delimitar um âmbito de análise da sequência de fala, frequentemente chamadas de unidades de referência, do ponto de vista comunicativo na fala em contexto natural. De fato, nós precisamos construir as relações linguísticas para interpretar os enunciados, e segmentar a fala é crucial para isso. A segmentação feita apenas a partir de pausas é completamente inconfiável no caso da fala espontânea, como mostrado amplamente na literatura (Raso et al 2015; Mittmann e Barbosa 2016, entre outros). Por exemplo, uma sequência como João vai pro Rio até amanhã pode ser segmentada como um ou mais enunciados: - João vai pro Rio (asserção ou pergunta, ou outro ato comunicativo) // até amanhã (despedida) // - João (chamamento ou pedido de confirmação ou outro ato) // vai pro Rio até amanhã (ordem ou pedido de confirmação ou outro) // - João (chamamento ou outro) // vai pro Rio (ordem ou outro) // até amanhã // Esses exemplos mostram como é importante segmentar a fala para definir o âmbito em que acontecem as relações linguísticas. A mesma sequência sintático- semântica pode adquirir muitos valores comunicativos diferentes dependendo de informações que são de natureza exclusivamente prosódica e em que as informações de fronteira são decisivas, mesmo se se combinam como informações prosódicas de outra natureza. Filol. Linguíst. Port., São Paulo, v. 20, n. Esp., p. 139-157, 2018 152 e-ISSN 2176-9419 Quanto à unidade que deve ser tratada como referência, ou seja como âmbito das principais relações linguísticas, alguns autores privilegiam a unidade entonacional (Mettouchi et al. 2015), outros uma unidade entonacional ou um conjunto delas que se conclua com uma fronteira de um tipo específico, ou seja, uma fronteira que carrega a percepção de conclusão (Izre’el no prelo; Cresti 2000). Para estes últimos, a percepção de fronteira deve ser acompanhada de um valor ilocucionário e da percepção de terminalidade para que se possa constituir uma unidade de referência. Essa é também a nossa proposta. Portanto, na segmentação, distinguimos entre uma fronteira não terminal (/) e uma fronteira terminal (//). Dois outros símbolos completam a anotação prosódica: o símbolo (+) indica enunciado interrompido (seja por motivo interno ou externo ao falante) e o símbolo ([/n]) indica retratação (o número associado à barra entre colchetes indica o número de palavras retratadas). 8.3 O alinhamento do texto ao som Os corpora de fala de terceira geração apresentam todos o alinhamento do texto ao som. Se na primeira geração se considerava suficiente trabalhar nas transcrições, e se na segunda geração o áudio acompanha as transcrições porém sem nenhum alinhamento, agora se considera essencial que o som seja alinhado ao texto para que a fala possa ser realmente estudada (Mello, 2014). De fato, somente nesse caso podemos utilizar as informações veiculadas pelo canal sonoro tantas vezes quanto acharmos necessário e com extrema facilidade. Não podemos esquecer que a fala é um processo, e não um produto como a escrita; a fala, portanto, desaparece imediatamente, e a única maneira para observá-la é repetir através de meios tecnológicos o processo dela. Anexar o áudio a um corpus transcrito, sem o alinhamento, não produz uma diferença significativa para o estudo da fala, que de fato continuará a se basear somente, ou quase somente, na transcrição, ou seja, em um texto que tem sua origem na fala, mas que não é mais fala, mas sim escrita, tendo portanto perdido todas as informações do canal sonoro, in primis a prosódia (Linell, 2005). 8.4 A revisão Uma vez transcrito, segmentado e alinhado, o corpus deverá ser revisado. As fases de transcrição e segmentação, por serem ambas de natureza perceptual, podem ser (e normalmente são) realizadas em concomitância. A revisão pode ser realizada depois dessa fase ou depois da fase de alinhamento, segundo o que se achar mais oportuno para o andamento do trabalho. Contudo a fase de revisão de transcrição e segmentação é delicada. Principalmente quanto à revisão da segmentação (mas, em medida menor, também quanto à fase de transcrição), a revisão normalmente não deve ser feita por todos os que participaram das primeiras fases. O corpus deve alcançar o maior grau possível de consistência, e nem todos temos a mesma percepção prosódica, a mesma capacidade de não atribuir à fronteira prosódica fenômenos perceptuais que podem ser devidos a outros objetivos que não são os de marcar fronteira (os casos mais clássicos são a confusão entre proeminência e fronteira e a confusão entre fronteira sintática e fronteira prosódica) e a mesma atenção na aplicação dos critérios de transcrição. É provável portanto que alguns componentes do grupo de pesquisa demonstrem uma maior sensibilidade para uma Filol. Linguíst. Port., São Paulo, v. 20, n. Esp., p. 139-157, 2018 153 e-ISSN 2176-9419 tarefa ou para outra. Geralmente é aconselhável se utilizar um teste Kappa de Fleiss (1971) para definir a melhor estratégia para a fase de revisão, identificando os segmentadores com maior consistência. Normalmente uma única revisão não é suficiente e frequentemente são necessárias três ou quatro fases de revisão, para garantir que a fase de validação seja bem sucedida. 8.5 A validação estatística Tanto a fase de segmentação quanto aquela de transcrição devem ser validadas. A validação da segmentação é principalmente uma validação prévia, ou seja, uma validação da capacidade dos segmentadores em realizar a sua tarefa. A validação das transcrições é principalmente uma validação a posteriori, ou seja, uma validação dos resultados alcançados. No C-ORAL-BRASIL, um grupo de potenciais segmentadores (ou mais frequentemente apenas uma parte deles) foi considerado pronto somente depois de ter alcançado um acordo superior a 0,8 em um teste Kappa de Fleiss (1971). Antes das revisões a seleção foi mais rígida: não contava apenas o acordo geral, mas 0,8 era o objetivo mínimo não somente para o acordo geral mas também para o acordo relativo a cada tipo de fronteira (terminal e não terminal) (cf. Mello et al., 2012). Normalmente, o acordo para as terminais é significativamente maior do que aquele para não terminais. Por experiência, os dois acordos tendem a ser parecidos somente quando o resultado é especialmente bom. O acordo geral entre os revisores do C- ORAL-BRASIL foi de 0,86 (0,87 para as terminais e 0,86 para as não terminais), o que é considerado excelente. Na validação das transcrições do C-ORAL-BRASIL foi necessário considerar em separado: (a) cada critério não ortográfico (que normalmente são muitos e constituem portanto um grupo amplo de validações); (b) os critérios ortográficos em conjunto; (c) a acurácia das marcas de fronteira (por exemplo a presença dos colchetes nas retratações e a real correspondência dos números associados às marcas prosódicas com as palavras realmente canceladas pelo falante); (d) a acurácia em marcar as palavras interrompidas (marcadas pelo símbolo ‘&’ antes da palavra); (d) a quantidade de erros por enunciado (cf. Mello et al., 2012). O C-ORAL-BRASIL se deu como objetivo que nenhum critério ultrapassasse 5% de erros. O grupo (a) normalmente é o mais desafiador, pois a quantidade de erros não é homogênea para todos os fenômenos, e porque a maior dificuldade para os transcritores reside exatamente na aplicação dos critérios não ortográficos. Se um ou mais dos critérios ultrapassarem esse limiar, o corpus inteiro deve ser novamente revisado, limitadamente aos critérios que apresentaram resultados insatisfatórios. O primeiro C-ORAL-BRASIL, dedicado à fala informal, não precisou de uma nova revisão após a validação, mas o segundo C-ORAL- BRASIL, dedicado à fala formal, a mídia e a telefone, precisou que os transcritores revisassem novamente todas as 300.000 palavras do corpus em busca de erros relativos a um pequeno grupo de fenômenos. Naturalmente, isso acarretou uma segunda fase de validação que garantisse que essa última revisão tivesse resolvido os problemas identificados na primeira validação. A validação, dado o seu custo de tempo, não pode ser realizada no corpus inteiro, mas uma revisão devida a uma validação insatisfatória deve ser feita sobre o corpus inteiro, mesmo se limitadamente aos fenômenos com erros superior a 5%. Filol. Linguíst. Port., São Paulo, v. 20, n. Esp., p. 139-157, 2018 154 e-ISSN 2176-9419 A metodologia seguida no C-ORAL-BRASIL é a seguinte: são extraídos aleatoriamente 10% dos enunciados de cada texto, e são analisados para cada um dos critérios. O que acontece nesses casos é que alguns critérios apresentam um número de ocorrência suficiente para uma avaliação considerada significativa dos erros (um mínimo de 50 ocorrências) e outros não. O primeiro grupo é portanto avaliado, tomando-se desde já uma decisão sobre a necessidade ou não de uma revisão posterior. Para todos os outros casos, se extraem novamente 10% de enunciados de cada texto (naturalmente não coincidentes com a primeira amostra) e se procede da mesma maneira. Pode acontecer de alguns fenômenos ainda não alcançarem uma quantidade de ocorrências significativa. Nesse caso é necessário distinguir entre aqueles que estão próximos desse limite e aqueles que são de frequência tão baixa que se deveria fazer a validação sobre o corpus quase inteiro. No primeiro caso se justifica um aumento tardio da amostra; no segundo provavelmente não. Mas o mais importante é que o usuário do corpus saiba o grau de confiabilidade dos critérios para cada fenômeno. Se um usuário desejar, por exemplo, fazer uma pesquisa sobre as duas séries (plena e reduzida) de formas pronominais, ele deve saber qual é a margem de erro que o corpus apresenta e poder decidir se para seus objetivos é uma margem aceitável ou não. Contudo, os erros não são todos iguais. Por exemplo, no caso do C-ORAL-BRASIL, nós distinguimos entre as formas vamos, vamo e vão. Analogamente distinguimos entre formas verbais com normalização do sufixo verbal (tal como a alternância es fazem/es faz). Casos como o primeiro são fáceis de se buscar automaticamente. Qualquer problema na acurácia da transcrição pode facilmente ser resolvido pelo usuário do corpus. Bem diferente é o segundo caso, porque os lexemas aos quais o fenômeno se aplica são muitos e não previsíveis. Essa é uma outra reflexão a se fazer quando se avalia se é o caso ou não de assumir um certo custo em termos de tempo e trabalho humano para aperfeiçoar a transcrição. Um problema que pode facilmente ser enfrentado pelo usuário é naturalmente menos grave que um problema que o usuário não pode corrigir, e que, portanto, deve ser resolvido na fase de compilação do corpus. 8.6 A etiquetagem O minicorpus angolano, assim como todos os minicorpora da coleção C- ORAL, será etiquetado informacionalmente com base na L-AcT (Moneglia, Raso 2014; Cresti 2000). A etiquetagem é um processo manual, realizado por etiquetadores treinados, e produz uma anotação que permite estudos sobre a estruturação informacional comparáveis entre as diversas línguas e entre as diversas tipologias textuais anotadas (para o PB e o italiano veja-se Panunzi, Mittmann 2014. Outros estudos estão em curso sobre o espanhol e o inglês americano). Já existe uma plataforma especializada para a consulta dos minicorpora anotados no laboratório LABLITA (Panunzi, Gregori 2011; http://www.lablita.it/app/dbipic/); em breve o laboratório LEEL permitirá a consulta também em uma plataforma própria. Filol. Linguíst. Port., São Paulo, v. 20, n. Esp., p. 139-157, 2018 155 e-ISSN 2176-9419 9 CONCLUSÃO Neste artigo apresentamos pela primeira vez o projeto de um corpus de fala espontânea do português angolano e os textos já gravados e que estão sendo tratados para a realização de um minicorpus de pelo menos 20 textos e 30.000 palavras (mas provavelmente mais) segmentado prosodicamente e etiquetado informacionalmente. Ainda não existe, até onde seja do nosso conhecimento, um corpus de fala espontânea do português angolano. Os dados que se tornarão disponíveis com a realização do corpus aqui anunciado, e já com o minicorpus, representam portanto uma contribuição importante para o estudo científico dessa variedade do português de maneira comparável com o PB, retratado nos corpora C-ORAL-BRASIL, e, mesmo se em medida menor, com o PE, retratado no corpus C-ORAL-ROM ou em outros corpora (Santos e Freitas 2008; Bettencourt Gonçalves e Veloso 2000; Bacelar do Nascimento 2001). REFERÊNCIAS Bacelar do Nascimento F, editora. Português falado - documentos autênticos: gravações áudio com transcrições alinhadas. Lisboa: Centro de Linguística da Universidade de Lisboa e Instituto Camões; 2001. [citado 17 dez. 2018]. Disponível em: http://clul.ulisboa.pt/equipa/fbacelar/portugues_falado_2001_nascimento.pdf Barbosa PA, Raso T. Spontaneous speech segmentation: functional and prosodic aspects with applications for automatic segmentation. Revista de Estudos da Linguagem. 2018;26(4):1361-1396. Barth-Weingarten D. Intonation units revisited caesura in talk-in-interaction. Amsterdam: John Benjamins; 2016. Bettencourt Gonçalves J, Veloso R. Spoken Portuguese: geographic and social varieties. Proceedings of the Second International Conference on Language Resources and Evaluation. Volume II. Athens, Greece: National Technical University of Athens Press; 2000. p. 905-908. Bick E. A anotação gramatical do C-ORAL-BRASIL. In: Raso T, Mello H, editores. C-ORAL- BRASIL I. Corpus de referência do português brasileiro falado informal. Belo Horizonte: UFMG; 2012. p. 223-254. Bick E. The grammatical annotation of speech corpora. Techniques and perspectives. In: Raso T, Mello H, editores. Spoken corpora and linguistic studies. Amsterdam: John Benjamins; 2014. p. 105- 128. Boersma P, Weenink D. Praat: doing phonetics by computer [programa de computador]. Amsterdam: Universiteit van Amsterdam; 2018. [citado 17 dez. 2018]. Disponível em: http://www.fon.hum.uva.nl/praat. Carrenho JM, Constantini AC, Barbosa PA. Qualidade acústica para análises na fonética forense: construção de uma proposta de classificação. Comunicação ao XXIV Congresso Nacional de Criminalística, VII Congresso Internacional de Pericial Criminal, XXIV Exposição de Tecnologias Aplicadas à Criminalística. Cavalcante F, Ramos A. The American English spontaneous speech minicorpus: architecture and comparability. CHIMERA: Romance Corpora and Linguistic Studies. 2016;3(2):99-124. [citado 17 dez. 2018]. Disponível em: https://revistas.uam.es/index.php/chimera/article/view/6507. Central Intelligence Agengy. The world factbook. [citado 5 out. 2018]. Disponível em: https://www.cia.gov/library/publications/the-world-factbook/fields/2103.html. http://clul.ulisboa.pt/equipa/fbacelar/portugues_falado_2001_nascimento.pdf Filol. Linguíst. Port., São Paulo, v. 20, n. Esp., p. 139-157, 2018 156 e-ISSN 2176-9419 Cresti E. Corpus di italiano parlato. Firenze: AccademiadellaCrusca; 2000. 2 Vols. Cresti E. Notes on lexical strategy, structural strategies and surface clause indexes in the C-ORAL- ROM spoken corpora. In: Cresti E, Moneglia M, editores. C-ORAL-ROM: integrated reference corpora for spoken Romance Languages. Amsterdam, Philadelphia: John Benjamins; 2005. p. 209-256. Cresti E, Moneglia M, editores. C-ORAL-ROM: integrated reference corpora for spoken Romance Languages. Amsterdam, Philadelphia: John Benjamins; 2005. Du Bois J W, Chafe WL, Meyer C, Thompson S, Santa Barbara Corpus of Spoken American English. Washington DC: Linguistic Data Consortium; 2000-2005. Fleiss JL. Measuring nominal scale agreement among many raters. Psychological Bulletin. 1971;76:378- 382. Gregori L, Panunzi A. DB-IPIC: An XML database for informational patterning analysis. In: Mello H, Pettorino M, Raso T, editors. Proceedings of the 7th GSCP International Conference. Speech and Corpora. Florence: Firenze University Press; 2012. p. 121–127. Izre’el S. Syntax, prosody, discourse and information Structure: the case for unipartite clauses. A View from Spoken Israeli Hebrew. Revista de Estudos da Linguagem; no prelo. Izre’el S, Mello H, Panunzi A, Raso T, editores. In search for a reference unit of spoken language: a corpus driven approach. Amsterdam: John Benjamins; em preparação. Izre’el S, Rahav G. The corpus of spoken Israeli Hebrew (CoSIH); Phase I: the pilot study. In: Oostdijk N, Kristoffersen G, Sampson G, editors. LREC 2004 Sattelite Workshop, Fourth International Conference on Language Resources and Evaluation: Compiling and Processing Spoken Language Corpora. Lisbon, Portugal. Paris: ELRA - European Language Resources Association; 2004. p. 1-7. Linell P. The written language bias in linguistics. New York: Routledge; 2005. Mello H. Methodological issues for spontaneous speech corpora compilation. The case of C-ORAL- BRASIL. In: Raso T, Mello H, editores. Spoken corpora and linguistic studies. Amsterdam: John Benjamins; 2014. p. 27-68. Mello H, Raso T, Mittmann M, Vale H, Côrtes P. Transcrição e segmentação prosódica do corpus c- oral-brasil: critérios de implementação e validação. In: Raso T, Mello H, editores. C-ORAL-BRASIL I. Corpus de referência do português brasileiro falado informal. Belo Horizonte: UFMG; 2012. p. 125- 174. Mettouchi A, Vanhove M, Caubet D, editors. Corpus-based studies of lesser-described languages: the CorpAfroAs corpus of spoken Afro Asiatic languages. Studies in Corpus Linguistics 68. John Benjamins: Amsterdam-Philadelphia; 2015. Mittmann MM, Barbosa PA. An automatic speech segmentation tool based on multiple acoustic parameters. CHIMERA: Romance Corpora and Linguistic Studies. 2016;3(2):133-147. Mittmann MM, Raso T. The C-ORAL-BRASIL informationally tagged minicorpus. In: Mello H, Panunzi A, Raso T. Pragmatics and prosody: illocution, modality, attitude, information structure and speech annotation; 2011. p. 151-183 Moneglia M. 2005. The C-ORAL-ROM resource. In: Cresti E, Moneglia M, editors. C-ORAL-ROM: Integrated reference corpora for spoken romance languages. Amsterdam: John Benjamins; 2005. p. 1– 70. Filol. Linguíst. Port., São Paulo, v. 20, n. Esp., p. 139-157, 2018 157 e-ISSN 2176-9419 Moneglia M, Raso T. Notes Language into Act Theory (L-AcT). In: Raso T, Mello H, editors. In: Spoken Corpora and Linguistic Studies. Amsterdam: John Benjamins; 2014. p. 468-495. Nicolas Martinez C, Lombán M. Mini-Corpus del español para DB-IPIC. CHIMERA. Romance Corpora and Linguistic Studies. No prelo. Panunzi A, Gregori L. DB-IPIC. An XML database for the representation of information structure in spoken language. In: Mello H, Panunzi A, Raso T, editors. Pragmatics and prosody. Illocution, modality, attitude, information structure and speech annotation. Florence: Firenze University Press; 2011. P. 19–37. Panunzi A, Mittmann MM. The IPIC resource and a cross-linguistic analysis of information structure in Italian and Brazilian Portuguese In: Raso T, Mello H, editors. Spoken corpora and linguistic studies. Amsterdam: John Benjamins; 2014. p. 129-151. Raso T. O corpus C-ORAL-BRASIL. In: Raso T, Mello H, editores. C-ORAL-BRASIL I Corpus de referência do português brasileiro falado informal; 2012. 55–90. Raso T, Mello H, editores. C-ORAL-BRASIL I. Corpus de referência do português brasileiro falado informal. Belo Horizonte: UFMG; 2012. Raso T, .Mello H. C-ORAL-BRASIL: description, methodology and theoretical framework. In: Tony Berber Sardinha T, São Bento TL, editors. Working with Portuguese Corpora. London-New Delhi- New York-Sydney: Bloomsbury; 2014. p. 257-278. Raso T, Mello H, editores. C-ORAL-BRASIL I. Corpus de referência do português brasileiro da fala formal em contexto natural, de mídia e de telefone. Em preparação. Raso T, Mittmann MM. As principais medidas da fala. In: Raso T, Mello H, editores. C-ORAL- BRASIL I. Corpus de referência do português brasileiro falado informal. Belo Horizonte: UFMG, 2012. p. 177-220. Raso T, Mittmann MM, Oliveira A. O papel da pausa na segmentação prosódica de corpora de fala. Revista de Estudos da Linguagem, v. 23; 2015. p. 883-922-922. Disponível em: http://www.periodicos.letras.ufmg.br/index.php/relin/article/download/9536/8799. Raso T, Soares E, Miranda I. Um minicorpus de fala telefônica do português brasileiro etiquetado informacionalmente; em preparação. Santos F, Freitas T. CORP-ORAL: Spontaneous speech corpus for European Portuguese. In: Proceedings of the International Conference on Language Resources and Evaluation, LREC; 2008. Disponível em: http://www.lrec-conf.org/proceedings/lrec2008. Simons GF, Fenning CD, editors. Ethnologue: languages of the world, languages of Angola, Twenty- first edition. Dallas, Texas: SIL International; 2018. Disponível em: www.ethnologue.com.