所以这真的让我感到困惑。我正在使用熊猫来玩这个Kaggle dataset来学习统计数据。我试图通过使用Series.sum()/ len(Series)计算列的平均值,但是后来我记得存在Series.mean()。但是,我偶然发现熊猫Series.mean()与Series.sum()/ len(Series)给出的结果略有不同。
复制步骤:-使用pd.read_csv()读取数据集-将MaxTemp列作为我们将要处理的系列,例如,名为“ workdata”。-计算workdata.mean()和workdata.sum()/ len(workdata)
现在,我怀疑这种差异是因为计算机无法正确地计算出小数位数100%,并且这里有很多小数位数可供使用,因此细小的差异可能会堆积。
如果确实如此,哪个会给出更准确的结果,为什么?
这是因为Series.mean()
不在dataFrame中计算NaN
值。如果要包含NaN
值,则可以使用Series.mean(skipna=False)
。
HAPPY_CODING ...