Enriching the E2E dataset

Thiago Castro Ferreira; Helena Vaz; Brian Davis; Adriana Silvina Pagano

Enriching the E2E dataset

Arquivos

Enriching the E2E dataset.pdf (173.86 KB)

Data

2021

Autor(es)

Thiago Castro Ferreira

Helena Vaz

Brian Davis

Adriana Silvina Pagano

Editor

Universidade Federal de Minas Gerais

Tipo

Artigo de evento

Resumo

This study introduces an enriched version of the E2E dataset, one of the most popular language resources for data-to-text NLG. We extract intermediate representations for popular pipeline tasks such as discourse ordering, text structuring, lexicalization and referring expression generation, enabling researchers to rapidly develop and evaluate their data-to-text pipeline systems. The intermediate representations are extracted by aligning nonlinguistic and text representations through a process called delexicalization, which consists in replacing input referring expressions to entities/attributes with placeholders. The enriched dataset is publicly available.

Assunto

Ciência da Computação, Linguística de corpus, Processamento da linguagem natural (Computação)

URI

https://hdl.handle.net/1843/57496

Departamento

FALE - FACULDADE DE LETRAS
ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO

Endereço externo

https://aclanthology.org/2021.inlg-1.18.pdf

Coleções

Artigo de Evento

Página do item completo

Enriching the E2E dataset

Arquivos

Data

Autor(es)

Título da Revista

ISSN da Revista

Título de Volume

Editor

Descrição

Tipo

Título alternativo

Primeiro orientador

Membros da banca

Resumo

Abstract

Assunto

Palavras-chave

Citação

URI

Departamento

Curso

Endereço externo

Coleções

Avaliação

Revisão

Suplementado Por

Referenciado Por