An empirical study on the availability and usage of fake data

dc.creatorHelena Muniz Nogueira
dc.date.accessioned2025-12-10T17:31:00Z
dc.date.issued2025-10-17
dc.description.abstractFake data (também conhecido como dados sintéticos) é tipicamente utilizado para apoiar o desenvolvimento e teste de software. Por exemplo, plataformas de e-commerce não devem ser testadas com nomes e pedidos reais de clientes. Atualmente, diversas bibliotecas de geração de dados fictícios estão disponíveis para criar dados realistas em várias linguagens de programação. Apesar de serem amplamente utilizadas em projetos reais, não sabemos exatamente quais dados fictícios são fornecidos por essas bibliotecas e consumidos por projetos clientes. Também carecemos de informações detalhadas sobre por que os desenvolvedores recorrem a dados fictícios. Nesta dissertação, fornecemos um estudo empírico para explorar quais dados fictícios os desenvolvedores utilizam e as razões por trás disso. Esse conhecimento pode nos ajudar a entender quais dados fictícios estão atualmente disponíveis para apoiar desenvolvedores, quão culturalmente diverso é o conjunto de dados fictícios e quais dados fictícios podem estar faltando. Analisamos a popular biblioteca Faker, em Python, e mineramos 500 projetos clientes. Propomos questões de pesquisa para avaliar a disponibilidade e o consumo de dados fictícios. (1) Constatamos que a biblioteca analisada fornece 589 APIs únicas para gerar dados fictícios em 25 categorias. Dados fictícios podem ser gerados para 91 localidades, mas elas diferem amplamente em termos de diversidade de dados. A maioria das APIs de geração de dados fictícios são simples de usar, com 73,7% não exigindo parâmetros e 84,6% retornando simplesmente strings. (2) Em relação ao uso pelos clientes, categorias importantes de dados fictícios consumidos incluem: person, address e internet. As 3 APIs mais utilizadas são: name, email e first_name. (3) Também revelamos múltiplas razões específicas para o uso de dados fictícios, como geração de dados de teste, inicialização de bancos de dados, suporte a demonstrações e apresentações, anonimização de dados e geração de benchmarks. Por fim, com base em nossos resultados, discutimos implicações práticas para profissionais e pesquisadores, incluindo a necessidade de dados fictícios mais culturalmente diversos e potenciais soluções para aprimorar geradores de dados fictícios.
dc.identifier.urihttps://hdl.handle.net/1843/1131
dc.languageeng
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso aberto
dc.subjectComputação – Teses
dc.subjectEngenharia de Software - Teses
dc.subjectSoftware – Testes – Teses
dc.subjectInteligência artificial - Teses
dc.subject.otherFake Data
dc.subject.otherFake Data
dc.subject.otherTest Data
dc.subject.otherLLMs
dc.subject.otherMining Software Repository
dc.titleAn empirical study on the availability and usage of fake data
dc.title.alternativeUm estudo empírico sobre a disponibilidade e o uso de dados falsos
dc.typeDissertação de mestrado
local.contributor.advisor1André Cavalcante Hora
local.contributor.advisor1Latteshttp://lattes.cnpq.br/4957418183504876
local.contributor.referee1Marco Túlio de Oliveira Valente
local.contributor.referee1João Eduardo Montandon de Araújo Filho
local.creator.Latteshttp://lattes.cnpq.br/4241162693464927
local.description.embargo2025-10-17
local.description.resumoFake data (also known as synthetic data) is typically used to support software development and testing. For instance, e-commerce platforms must not be tested with real customer names and orders. Nowadays, multiple faking libraries are available to generate realistic fake data in several programming languages. Despite being largely used by real-world projects, we are unaware of what fake data is provided by faking libraries and consumed by client projects. We also lack detailed information on why developers rely on fake data. In this dissertation, we provide an empirical study to explore what fake data developers use and the reasons behind it. This knowledge can help us understand what fake data is currently available to support developers, how culturally diverse the fake data set is, and what fake data might be missing. We analyze the popular Python faking library Faker and mine 500 client projects. We propose research questions to assess the availability and consumption of fake data. (1) We find that the analyzed faking library provides 589 unique APIs to generate fake data across 25 categories. Fake data can be generated for 91 locales, but they largely differ in terms of data diversity. Most fake APIs are straightforward to use, with 73.7% requiring no parameters and 84.6% simply returning strings. (2) Regarding the client usage, important categories of fake data consumed by clients include: person, address, and internet. The top-3 most consumed fake APIs are: name, email, and first_name. (3) We also reveal multiple specific reasons for using fake data, such as test data generation, database bootstrapping, demo and showcase support, data anonymization, and benchmark generation. Lastly, based on our results, we discuss actionable implications for practitioners and researchers, including the need for more culturally diverse fake data and potential solutions to enhance fake data generators.
local.publisher.countryBrasil
local.publisher.departmentICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Ciência da Computação
local.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::ENGENHARIA DE SOFTWARE

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Dissertação___Helena.pdf
Tamanho:
1.18 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Item-specific license agreed to upon submission
Descrição: