An empirical study on the availability and usage of fake data

Helena Muniz Nogueira

An empirical study on the availability and usage of fake data

dc.creator	Helena Muniz Nogueira
dc.date.accessioned	2025-12-10T17:31:00Z
dc.date.issued	2025-10-17
dc.description.abstract	Fake data (também conhecido como dados sintéticos) é tipicamente utilizado para apoiar o desenvolvimento e teste de software. Por exemplo, plataformas de e-commerce não devem ser testadas com nomes e pedidos reais de clientes. Atualmente, diversas bibliotecas de geração de dados fictícios estão disponíveis para criar dados realistas em várias linguagens de programação. Apesar de serem amplamente utilizadas em projetos reais, não sabemos exatamente quais dados fictícios são fornecidos por essas bibliotecas e consumidos por projetos clientes. Também carecemos de informações detalhadas sobre por que os desenvolvedores recorrem a dados fictícios. Nesta dissertação, fornecemos um estudo empírico para explorar quais dados fictícios os desenvolvedores utilizam e as razões por trás disso. Esse conhecimento pode nos ajudar a entender quais dados fictícios estão atualmente disponíveis para apoiar desenvolvedores, quão culturalmente diverso é o conjunto de dados fictícios e quais dados fictícios podem estar faltando. Analisamos a popular biblioteca Faker, em Python, e mineramos 500 projetos clientes. Propomos questões de pesquisa para avaliar a disponibilidade e o consumo de dados fictícios. (1) Constatamos que a biblioteca analisada fornece 589 APIs únicas para gerar dados fictícios em 25 categorias. Dados fictícios podem ser gerados para 91 localidades, mas elas diferem amplamente em termos de diversidade de dados. A maioria das APIs de geração de dados fictícios são simples de usar, com 73,7% não exigindo parâmetros e 84,6% retornando simplesmente strings. (2) Em relação ao uso pelos clientes, categorias importantes de dados fictícios consumidos incluem: person, address e internet. As 3 APIs mais utilizadas são: name, email e first_name. (3) Também revelamos múltiplas razões específicas para o uso de dados fictícios, como geração de dados de teste, inicialização de bancos de dados, suporte a demonstrações e apresentações, anonimização de dados e geração de benchmarks. Por fim, com base em nossos resultados, discutimos implicações práticas para profissionais e pesquisadores, incluindo a necessidade de dados fictícios mais culturalmente diversos e potenciais soluções para aprimorar geradores de dados fictícios.
dc.identifier.uri	https://hdl.handle.net/1843/1131
dc.language	eng
dc.publisher	Universidade Federal de Minas Gerais
dc.rights	Acesso aberto
dc.subject	Computação – Teses
dc.subject	Engenharia de Software - Teses
dc.subject	Software – Testes – Teses
dc.subject	Inteligência artificial - Teses
dc.subject.other	Fake Data
dc.subject.other	Fake Data
dc.subject.other	Test Data
dc.subject.other	LLMs
dc.subject.other	Mining Software Repository
dc.title	An empirical study on the availability and usage of fake data
dc.title.alternative	Um estudo empírico sobre a disponibilidade e o uso de dados falsos
dc.type	Dissertação de mestrado
local.contributor.advisor1	André Cavalcante Hora
local.contributor.advisor1Lattes	http://lattes.cnpq.br/4957418183504876
local.contributor.referee1	Marco Túlio de Oliveira Valente
local.contributor.referee1	João Eduardo Montandon de Araújo Filho
local.creator.Lattes	http://lattes.cnpq.br/4241162693464927
local.description.embargo	2025-10-17
local.description.resumo	Fake data (also known as synthetic data) is typically used to support software development and testing. For instance, e-commerce platforms must not be tested with real customer names and orders. Nowadays, multiple faking libraries are available to generate realistic fake data in several programming languages. Despite being largely used by real-world projects, we are unaware of what fake data is provided by faking libraries and consumed by client projects. We also lack detailed information on why developers rely on fake data. In this dissertation, we provide an empirical study to explore what fake data developers use and the reasons behind it. This knowledge can help us understand what fake data is currently available to support developers, how culturally diverse the fake data set is, and what fake data might be missing. We analyze the popular Python faking library Faker and mine 500 client projects. We propose research questions to assess the availability and consumption of fake data. (1) We find that the analyzed faking library provides 589 unique APIs to generate fake data across 25 categories. Fake data can be generated for 91 locales, but they largely differ in terms of data diversity. Most fake APIs are straightforward to use, with 73.7% requiring no parameters and 84.6% simply returning strings. (2) Regarding the client usage, important categories of fake data consumed by clients include: person, address, and internet. The top-3 most consumed fake APIs are: name, email, and first_name. (3) We also reveal multiple specific reasons for using fake data, such as test data generation, database bootstrapping, demo and showcase support, data anonymization, and benchmark generation. Lastly, based on our results, we discuss actionable implications for practitioners and researchers, including the need for more culturally diverse fake data and potential solutions to enhance fake data generators.
local.publisher.country	Brasil
local.publisher.department	ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initials	UFMG
local.publisher.program	Programa de Pós-Graduação em Ciência da Computação
local.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::ENGENHARIA DE SOFTWARE

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: Dissertação___Helena.pdf
Tamanho:: 1.18 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.07 KB
Formato:: Item-specific license agreed to upon submission
Descrição:

Baixar

Coleções

Pós-Graduação em Ciência da Computação - Dissertações