Bias correction in clustered underreported data

dc.creatorGuilherme Lopes de Oliveira
dc.creatorRaffaele Argiento
dc.creatorRosangela Helena Loschi
dc.creatorRenato Martins Assunção
dc.creatorFabrizio Ruggeri
dc.creatorMárcia D’Elia Branco
dc.date.accessioned2023-07-17T18:51:07Z
dc.date.accessioned2025-09-09T00:07:32Z
dc.date.available2023-07-17T18:51:07Z
dc.date.issued2022-03
dc.description.abstractA qualidade dos dados de regiões pobres e socialmente carentes deu origem a muitos desafios estatísticos. Uma delas é a subnotificação de eventos vitais levando a estimativas enviesadas dos riscos associados. Para lidar com dados de contagem subnotificados, modelos baseados em distribuições compostas de Poisson têm sido comumente assumidos. Para serem identificáveis, tais modelos geralmente requerem informações extras e fortes sobre a probabilidade de relatar o evento em todas as áreas de interesse, o que nem sempre está disponível. Introduzimos uma nova abordagem para o modelo composto de Poisson assumindo que as áreas são agrupadas de acordo com a qualidade de seus dados. Aproveitamos esses clusters para criar uma estrutura hierárquica na qual as probabilidades de relatórios diminuem à medida que passamos do melhor grupo para o pior. Obtemos restrições para a identificabilidade do modelo e provamos que apenas informações prévias sobre a probabilidade de relatórios em áreas com a melhor qualidade de dados são necessárias. Várias abordagens para modelar a incerteza sobre as probabilidades de relatórios são apresentadas, incluindo prioris de referência. Diferentes características da metodologia proposta são estudadas através de simulação. Aplicamos nosso modelo para mapear os riscos de mortalidade neonatal precoce em Minas Gerais, um estado brasileiro que apresenta características heterogêneas e uma desigualdade socioeconômica relevante.
dc.description.sponsorshipCNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico
dc.description.sponsorshipFAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas Gerais
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
dc.description.sponsorshipOutra Agência
dc.format.mimetypepdf
dc.identifier.doihttps://doi.org/10.1214/20-BA1244
dc.identifier.issn1931-6690
dc.identifier.urihttps://hdl.handle.net/1843/56438
dc.languageeng
dc.publisherUniversidade Federal de Minas Gerais
dc.relation.ispartofBayesian Analysis
dc.rightsAcesso Aberto
dc.subjectEstatística
dc.subjectDistribuição de Poisson
dc.subjectDistribuição (Probabilidades)
dc.subjectMortalidade infantil
dc.subject.otherCompound Poisson model
dc.subject.otherGeneralized beta distribution
dc.subject.otherJeffreys prior
dc.subject.otherModel identifiability
dc.subject.otherNeonatal mortality
dc.subject.otherUnderreporting
dc.titleBias correction in clustered underreported data
dc.title.alternativeCorreção de viés em dados subnotificados agrupados
dc.typeArtigo de periódico
local.citation.epage126
local.citation.issue1
local.citation.spage95
local.citation.volume17
local.description.resumoData quality from poor and socially deprived regions have given rise to many statistical challenges. One of them is the underreporting of vital events leading to biased estimates for the associated risks. To deal with underreported count data, models based on compound Poisson distributions have been commonly assumed. To be identifiable, such models usually require extra and strong information about the probability of reporting the event in all areas of interest, which is not always available. We introduce a novel approach for the compound Poisson model assuming that the areas are clustered according to their data quality. We leverage these clusters to create a hierarchical structure in which the reporting probabilities decrease as we move from the best group to the worst ones. We obtain constraints for model identifiability and prove that only prior information about the reporting probability in areas experiencing the best data quality is required. Several approaches to model the uncertainty about the reporting probabilities are presented, including reference priors. Different features regarding the proposed methodology are studied through simulation. We apply our model to map the early neonatal mortality risks in Minas Gerais, a Brazilian state that presents heterogeneous characteristics and a relevant socio-economical inequality.
local.identifier.orcidhttps://orcid.org/0000-0003-3220-6356
local.identifier.orcidhttps://orcid.org/0000-0001-6554-9799
local.identifier.orcidhttps://orcid.org/0000-0002-7655-6254
local.identifier.orcidhttps://orcid.org/0000-0002-6724-9367
local.publisher.countryBrasil
local.publisher.departmentICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.departmentICX - DEPARTAMENTO DE ESTATÍSTICA
local.publisher.initialsUFMG
local.url.externahttps://projecteuclid.org/journals/bayesian-analysis/volume-17/issue-1/Bias-Correction-in-Clustered-Underreported-Data/10.1214/20-BA1244.full

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Bias correction in clustered underreported data.pdf
Tamanho:
4.32 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
License.txt
Tamanho:
1.99 KB
Formato:
Plain Text
Descrição: