数据归一化数据按国家(有时按州或省)以及日期报告。这是一个有用的起点,但是有两个限制:并非所有国家都有相同的人口。在人口为600万的国家中,有5,000例与在人口为9,500万的国家中的5,000例是不同的。疫情并非在每个国家/地区都在同一天开始。在任何一天,一个国家可能处于爆发高峰,而在另一个社区中,传播才刚刚开始。在适当的地方使用外部数据,对数据进行规范化,以便您可以更有意义地比较各个地区。对于任何地区,我们建议使用已达到或超过10个确诊病例的日期作为爆发的“第0天”。
我建议您考虑人口密度(人/土地面积)。 (看起来这可能与几何位有关,但我没有看到“土地面积”列。)这可能是数字上最大的不同。
至于如何做归一化。 Numpy是一个很棒的数值库。如果要进行l2归一化,请使用:
import numpy as np
np.linalg.norm(x)
详细说明您尝试过的内容以及该内容不符合您的目标的情况,我们可以对其进行修复。但是到目前为止,这是一个太多的问题,无法猜测对其他人有用。