Bias correction in clustered underreported data

Guilherme Lopes de Oliveira; Raffaele Argiento; Rosangela Helena Loschi; Renato Martins Assunção; Fabrizio Ruggeri; Márcia D'Elia Branco

doi:https://doi.org/10.1214/20-BA1244

Bias correction in clustered underreported data

dc.creator	Guilherme Lopes de Oliveira
dc.creator	Raffaele Argiento
dc.creator	Rosangela Helena Loschi
dc.creator	Renato Martins Assunção
dc.creator	Fabrizio Ruggeri
dc.creator	Márcia D'Elia Branco
dc.date.accessioned	2023-10-31T21:29:42Z
dc.date.accessioned	2025-09-09T01:15:32Z
dc.date.available	2023-10-31T21:29:42Z
dc.date.issued	2022
dc.description.abstract	A qualidade dos dados provenientes de regiões pobres e socialmente desfavorecidas deu origem a muitos desafios estatísticos. Um deles é a subnotificação de eventos vitais, levando a estimativas tendenciosas dos riscos associados. Para lidar com dados de contagem subnotificados, modelos baseados em distribuições compostas de Poisson têm sido comumente assumidos. Para serem identificáveis, tais modelos geralmente requerem informações extras e fortes sobre a probabilidade de reportar o evento em todas as áreas de interesse, o que nem sempre está disponível. Introduziu-se uma nova abordagem para o modelo composto de Poisson assumindo que as áreas são agrupadas de acordo com a qualidade dos dados. Aproveitou-se desses clusters para criar uma estrutura hierárquica na qual as probabilidades de relato diminuem à medida que se passa do melhor grupo para o pior. Obteve-se restrições para a identificabilidade do modelo e provou-se que apenas são necessárias informações prévias sobre a probabilidade de relato em áreas com melhor qualidade de dados. São apresentadas diversas abordagens para modelar a incerteza sobre as probabilidades de relato, incluindo anteriores de referência. Diferentes características da metodologia proposta são estudadas através de simulação. O modelo foi aplicado para mapear os riscos de mortalidade neonatal precoce em Minas Gerais, um estado brasileiro que apresenta características heterogêneas e uma desigualdade socioeconômica relevante.
dc.description.sponsorship	CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico
dc.description.sponsorship	FAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas Gerais
dc.description.sponsorship	CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
dc.format.mimetype	pdf
dc.identifier.doi	https://doi.org/10.1214/20-BA1244
dc.identifier.issn	1931-6690
dc.identifier.uri	https://hdl.handle.net/1843/60389
dc.language	por
dc.publisher	Universidade Federal de Minas Gerais
dc.relation.ispartof	Bayesian analysis
dc.rights	Acesso Aberto
dc.subject	Estatística
dc.subject	Distribuição de poisson
dc.subject	Mortalidade infantil
dc.subject	Sub-registro
dc.subject.other	Compound poisson model
dc.subject.other	Generalized beta distribution
dc.subject.other	Jeffreys prior
dc.subject.other	Model identifiability
dc.subject.other	Neonatal mortality
dc.subject.other	Underreporting
dc.title	Bias correction in clustered underreported data
dc.title.alternative	Correção de viés em dados agrupados subnotificados
dc.type	Artigo de periódico
local.citation.epage	126
local.citation.spage	95
local.citation.volume	17
local.description.resumo	Data quality from poor and socially deprived regions have given rise to many statistical challenges. One of them is the underreporting of vital events leading to biased estimates for the associated risks. To deal with underreported count data, models based on compound Poisson distributions have been commonly assumed. To be identifiable, such models usually require extra and strong information about the probability of reporting the event in all areas of interest, which is not always available. We introduce a novel approach for the compound Poisson model assuming that the areas are clustered according to their data quality. We leverage these clusters to create a hierarchical structure in which the reporting probabilities decrease as we move from the best group to the worst ones. We obtain constraints for model identifiability and prove that only prior information about the reporting probability in areas experiencing the best data quality is required. Several approaches to model the uncertainty about the reporting probabilities are presented, including reference priors. Different features regarding the proposed methodology are studied through simulation. We apply our model to map the early neonatal mortality risks in Minas Gerais, a Brazilian state that presents heterogeneous characteristics and a relevant socio-economical inequality.
local.identifier.orcid	https://orcid.org/0000-0003-3220-6356
local.identifier.orcid	https://orcid.org/0000-0001-6554-9799
local.identifier.orcid	https://orcid.org/0000-0002-6724-9367
local.publisher.country	Brasil
local.publisher.department	ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.department	ICX - DEPARTAMENTO DE ESTATÍSTICA
local.publisher.initials	UFMG
local.url.externa	https://projecteuclid.org/journals/bayesian-analysis/volume-17/issue-1/Bias-Correction-in-Clustered-Underreported-Data/10.1214/20-BA1244.full

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: Bias correction in clustered underreported data.pdf
Tamanho:: 4.32 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: License.txt
Tamanho:: 1.99 KB
Formato:: Plain Text
Descrição:

Baixar

Coleções

Artigo de Periódico