34 grandes recordes que você pode ter perdido: verão/outono de 2022
Mar 06, 202350 incríveis atualizações domésticas na Amazon que parecem caras, mas na verdade são baratas como o inferno
Mar 08, 2023Allterra Arms Mountain Shadow Steel 6.5 Revisão PRC
Mar 10, 2023Onde encontrar todos os tesouros em God Of War Ragnarok's Eastern Barri Woods
Mar 12, 2023Sonhos se tornam realidade no Wilcox Fashion Show
Mar 14, 2023real unificado
Scientific Data volume 10, Número do artigo: 367 (2023) Cite este artigo
Detalhes das métricas
Existe um número impressionante de catálogos de dados COVID-19. No entanto, nenhum é totalmente otimizado para aplicativos de ciência de dados. Nomenclatura inconsistente e convenções de dados, controle de qualidade desigual e falta de alinhamento entre dados de doenças e preditores potenciais representam barreiras para modelagem e análise robustas. Para resolver essa lacuna, geramos um conjunto de dados unificado que integra e implementa verificações de qualidade dos dados de várias fontes importantes de dados epidemiológicos e ambientais da COVID-19. Usamos uma hierarquia globalmente consistente de unidades administrativas para facilitar a análise dentro e entre os países. O conjunto de dados aplica essa hierarquia unificada para alinhar os dados epidemiológicos do COVID-19 com vários outros tipos de dados relevantes para entender e prever o risco do COVID-19, incluindo dados hidrometeorológicos, qualidade do ar, informações sobre políticas de controle do COVID-19, dados de vacinas e principais características demográficas.
A pandemia de COVID-19 em andamento causou doenças generalizadas, perda de vidas e agitação social em todo o mundo. À medida que a crise de saúde pública continua, há uma necessidade urgente e uma oportunidade única de rastrear e caracterizar a propagação do vírus. Isso inclui melhorar nossa compreensão da sensibilidade espaço-temporal da transmissão de doenças a fatores demográficos, geográficos, sociopolíticos, sazonais e ambientais.
As comunidades globais de pesquisa e ciência de dados responderam a esse desafio com uma ampla gama de esforços para coletar, catalogar e disseminar dados sobre contagem de casos de COVID-19, hospitalizações, mortalidade, vacinações e outros indicadores de incidência e carga de COVID1,2, 3,4,5,6,7,8,9,10,11,12,13,14. Embora esses bancos de dados tenham suportado um enorme volume de pesquisa, monitoramento de risco e discussão pública, eles geralmente têm estrutura inconsistente, convenções de nomenclatura, valores, resolução, qualidade e falta de alinhamento entre os dados de doenças infecciosas e os possíveis fatores de risco. Essas questões exigem uma limpeza trabalhosa para combinar dados de diferentes fontes que atrasam o progresso da pesquisa e podem afetar sua qualidade. Além disso, conjuntos de dados críticos que quantificam fatores de risco, como clima e mobilidade humana, estão sujeitos a vieses e disponibilidade limitada, apresentando mais desafios para o processamento de dados.
Para utilizar esses tipos diferentes de dados de diferentes fontes em diferentes níveis de granularidade, eles precisam ser combinados e harmonizados. Sem verificações adequadas de harmonização, curadoria e consistência, a análise desses conjuntos de dados pode levar a resultados espúrios. Um conjunto de dados unificado que aborda esses problemas ajudará a acelerar nossa compreensão do risco do COVID-19 por meio da modelagem espaço-temporal multiescalar, eliminando as etapas demoradas extras necessárias para limpar, padronizar e mesclar as diferentes fontes de dados. Como exemplo, fornecemos um caso de teste com a geração de estimativas de número reprodutivo efetivo (Rt) de duas fontes de dados diferentes, incluindo contagens de casos relatados e infecções diárias estimadas, que são importadas diretamente de nosso conjunto de dados unificado sem consumir tempo na unificação dos nomes das variáveis /types e limpeza ou georreferenciação dos dados.
Assim, nosso conjunto unificado de dados COVID-19 visa (1) harmonizar convenções de nomenclatura e codificação de fontes de dados confiáveis em vários níveis administrativos, (2) implementar controle de qualidade para contagens de casos COVID-19 de diferentes tipos, (3) alinhar sistematicamente possíveis preditores com dados do COVID-19 e (4) fornece atualizações e correções em tempo real e incorpora novas fontes para variáveis relevantes à medida que se tornam disponíveis. Especificamente, o conjunto de dados Unified COVID-19 inclui componentes-chave para epidemiologia, incluindo demografia, hidrometeorologia, qualidade do ar, política, vacinação e acessibilidade à saúde, mapeia todas as unidades geoespaciais globalmente em um identificador exclusivo, padroniza nomes administrativos, códigos, datas, dados tipos e formatos, unifica nomes de variáveis, tipos e categorias. Também organizamos os dados para corrigir entradas confusas que surgem de nomes conflitantes das mesmas unidades geográficas, diferentes estratégias e cronogramas de notificação e acúmulo de variáveis epidemiológicas. O conjunto de dados é distribuído em formatos acessíveis e otimizado para aplicativos de aprendizado de máquina para oferecer suporte a pesquisas reproduzíveis de alta qualidade. A disponibilidade desse conjunto de dados facilitou as análises dos fatores de risco da COVID-19 em resolução subnacional em vários países15,16,17,18 e estudos de mudanças nos fatores de risco ao longo da pandemia19.