An empirical study on the availability and usage of fake data
| dc.creator | Helena Muniz Nogueira | |
| dc.date.accessioned | 2025-12-10T17:31:00Z | |
| dc.date.issued | 2025-10-17 | |
| dc.description.abstract | Fake data (também conhecido como dados sintéticos) é tipicamente utilizado para apoiar o desenvolvimento e teste de software. Por exemplo, plataformas de e-commerce não devem ser testadas com nomes e pedidos reais de clientes. Atualmente, diversas bibliotecas de geração de dados fictícios estão disponíveis para criar dados realistas em várias linguagens de programação. Apesar de serem amplamente utilizadas em projetos reais, não sabemos exatamente quais dados fictícios são fornecidos por essas bibliotecas e consumidos por projetos clientes. Também carecemos de informações detalhadas sobre por que os desenvolvedores recorrem a dados fictícios. Nesta dissertação, fornecemos um estudo empírico para explorar quais dados fictícios os desenvolvedores utilizam e as razões por trás disso. Esse conhecimento pode nos ajudar a entender quais dados fictícios estão atualmente disponíveis para apoiar desenvolvedores, quão culturalmente diverso é o conjunto de dados fictícios e quais dados fictícios podem estar faltando. Analisamos a popular biblioteca Faker, em Python, e mineramos 500 projetos clientes. Propomos questões de pesquisa para avaliar a disponibilidade e o consumo de dados fictícios. (1) Constatamos que a biblioteca analisada fornece 589 APIs únicas para gerar dados fictícios em 25 categorias. Dados fictícios podem ser gerados para 91 localidades, mas elas diferem amplamente em termos de diversidade de dados. A maioria das APIs de geração de dados fictícios são simples de usar, com 73,7% não exigindo parâmetros e 84,6% retornando simplesmente strings. (2) Em relação ao uso pelos clientes, categorias importantes de dados fictícios consumidos incluem: person, address e internet. As 3 APIs mais utilizadas são: name, email e first_name. (3) Também revelamos múltiplas razões específicas para o uso de dados fictícios, como geração de dados de teste, inicialização de bancos de dados, suporte a demonstrações e apresentações, anonimização de dados e geração de benchmarks. Por fim, com base em nossos resultados, discutimos implicações práticas para profissionais e pesquisadores, incluindo a necessidade de dados fictícios mais culturalmente diversos e potenciais soluções para aprimorar geradores de dados fictícios. | |
| dc.identifier.uri | https://hdl.handle.net/1843/1131 | |
| dc.language | eng | |
| dc.publisher | Universidade Federal de Minas Gerais | |
| dc.rights | Acesso aberto | |
| dc.subject | Computação – Teses | |
| dc.subject | Engenharia de Software - Teses | |
| dc.subject | Software – Testes – Teses | |
| dc.subject | Inteligência artificial - Teses | |
| dc.subject.other | Fake Data | |
| dc.subject.other | Fake Data | |
| dc.subject.other | Test Data | |
| dc.subject.other | LLMs | |
| dc.subject.other | Mining Software Repository | |
| dc.title | An empirical study on the availability and usage of fake data | |
| dc.title.alternative | Um estudo empírico sobre a disponibilidade e o uso de dados falsos | |
| dc.type | Dissertação de mestrado | |
| local.contributor.advisor1 | André Cavalcante Hora | |
| local.contributor.advisor1Lattes | http://lattes.cnpq.br/4957418183504876 | |
| local.contributor.referee1 | Marco Túlio de Oliveira Valente | |
| local.contributor.referee1 | João Eduardo Montandon de Araújo Filho | |
| local.creator.Lattes | http://lattes.cnpq.br/4241162693464927 | |
| local.description.embargo | 2025-10-17 | |
| local.description.resumo | Fake data (also known as synthetic data) is typically used to support software development and testing. For instance, e-commerce platforms must not be tested with real customer names and orders. Nowadays, multiple faking libraries are available to generate realistic fake data in several programming languages. Despite being largely used by real-world projects, we are unaware of what fake data is provided by faking libraries and consumed by client projects. We also lack detailed information on why developers rely on fake data. In this dissertation, we provide an empirical study to explore what fake data developers use and the reasons behind it. This knowledge can help us understand what fake data is currently available to support developers, how culturally diverse the fake data set is, and what fake data might be missing. We analyze the popular Python faking library Faker and mine 500 client projects. We propose research questions to assess the availability and consumption of fake data. (1) We find that the analyzed faking library provides 589 unique APIs to generate fake data across 25 categories. Fake data can be generated for 91 locales, but they largely differ in terms of data diversity. Most fake APIs are straightforward to use, with 73.7% requiring no parameters and 84.6% simply returning strings. (2) Regarding the client usage, important categories of fake data consumed by clients include: person, address, and internet. The top-3 most consumed fake APIs are: name, email, and first_name. (3) We also reveal multiple specific reasons for using fake data, such as test data generation, database bootstrapping, demo and showcase support, data anonymization, and benchmark generation. Lastly, based on our results, we discuss actionable implications for practitioners and researchers, including the need for more culturally diverse fake data and potential solutions to enhance fake data generators. | |
| local.publisher.country | Brasil | |
| local.publisher.department | ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO | |
| local.publisher.initials | UFMG | |
| local.publisher.program | Programa de Pós-Graduação em Ciência da Computação | |
| local.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::ENGENHARIA DE SOFTWARE |