banner
Lar / blog / real unificado
blog

real unificado

Sep 01, 2023Sep 01, 2023

Scientific Data volume 10, Número do artigo: 367 (2023) Cite este artigo

Detalhes das métricas

Existe um número impressionante de catálogos de dados COVID-19. No entanto, nenhum é totalmente otimizado para aplicativos de ciência de dados. Nomenclatura inconsistente e convenções de dados, controle de qualidade desigual e falta de alinhamento entre dados de doenças e preditores potenciais representam barreiras para modelagem e análise robustas. Para resolver essa lacuna, geramos um conjunto de dados unificado que integra e implementa verificações de qualidade dos dados de várias fontes importantes de dados epidemiológicos e ambientais da COVID-19. Usamos uma hierarquia globalmente consistente de unidades administrativas para facilitar a análise dentro e entre os países. O conjunto de dados aplica essa hierarquia unificada para alinhar os dados epidemiológicos do COVID-19 com vários outros tipos de dados relevantes para entender e prever o risco do COVID-19, incluindo dados hidrometeorológicos, qualidade do ar, informações sobre políticas de controle do COVID-19, dados de vacinas e principais características demográficas.

A pandemia de COVID-19 em andamento causou doenças generalizadas, perda de vidas e agitação social em todo o mundo. À medida que a crise de saúde pública continua, há uma necessidade urgente e uma oportunidade única de rastrear e caracterizar a propagação do vírus. Isso inclui melhorar nossa compreensão da sensibilidade espaço-temporal da transmissão de doenças a fatores demográficos, geográficos, sociopolíticos, sazonais e ambientais.

As comunidades globais de pesquisa e ciência de dados responderam a esse desafio com uma ampla gama de esforços para coletar, catalogar e disseminar dados sobre contagem de casos de COVID-19, hospitalizações, mortalidade, vacinações e outros indicadores de incidência e carga de COVID1,2, 3,4,5,6,7,8,9,10,11,12,13,14. Embora esses bancos de dados tenham suportado um enorme volume de pesquisa, monitoramento de risco e discussão pública, eles geralmente têm estrutura inconsistente, convenções de nomenclatura, valores, resolução, qualidade e falta de alinhamento entre os dados de doenças infecciosas e os possíveis fatores de risco. Essas questões exigem uma limpeza trabalhosa para combinar dados de diferentes fontes que atrasam o progresso da pesquisa e podem afetar sua qualidade. Além disso, conjuntos de dados críticos que quantificam fatores de risco, como clima e mobilidade humana, estão sujeitos a vieses e disponibilidade limitada, apresentando mais desafios para o processamento de dados.

Para utilizar esses tipos diferentes de dados de diferentes fontes em diferentes níveis de granularidade, eles precisam ser combinados e harmonizados. Sem verificações adequadas de harmonização, curadoria e consistência, a análise desses conjuntos de dados pode levar a resultados espúrios. Um conjunto de dados unificado que aborda esses problemas ajudará a acelerar nossa compreensão do risco do COVID-19 por meio da modelagem espaço-temporal multiescalar, eliminando as etapas demoradas extras necessárias para limpar, padronizar e mesclar as diferentes fontes de dados. Como exemplo, fornecemos um caso de teste com a geração de estimativas de número reprodutivo efetivo (Rt) de duas fontes de dados diferentes, incluindo contagens de casos relatados e infecções diárias estimadas, que são importadas diretamente de nosso conjunto de dados unificado sem consumir tempo na unificação dos nomes das variáveis /types e limpeza ou georreferenciação dos dados.

Assim, nosso conjunto unificado de dados COVID-19 visa (1) harmonizar convenções de nomenclatura e codificação de fontes de dados confiáveis ​​em vários níveis administrativos, (2) implementar controle de qualidade para contagens de casos COVID-19 de diferentes tipos, (3) alinhar sistematicamente possíveis preditores com dados do COVID-19 e (4) fornece atualizações e correções em tempo real e incorpora novas fontes para variáveis ​​relevantes à medida que se tornam disponíveis. Especificamente, o conjunto de dados Unified COVID-19 inclui componentes-chave para epidemiologia, incluindo demografia, hidrometeorologia, qualidade do ar, política, vacinação e acessibilidade à saúde, mapeia todas as unidades geoespaciais globalmente em um identificador exclusivo, padroniza nomes administrativos, códigos, datas, dados tipos e formatos, unifica nomes de variáveis, tipos e categorias. Também organizamos os dados para corrigir entradas confusas que surgem de nomes conflitantes das mesmas unidades geográficas, diferentes estratégias e cronogramas de notificação e acúmulo de variáveis ​​epidemiológicas. O conjunto de dados é distribuído em formatos acessíveis e otimizado para aplicativos de aprendizado de máquina para oferecer suporte a pesquisas reproduzíveis de alta qualidade. A disponibilidade desse conjunto de dados facilitou as análises dos fatores de risco da COVID-19 em resolução subnacional em vários países15,16,17,18 e estudos de mudanças nos fatores de risco ao longo da pandemia19.