我正在使用带有 pandas 的标准波士顿房屋数据框,我注意到一些让我烦恼的事情:
当我以两种不同的方式检查缺失值时 - 我得到了 2 个不同的结果,尽管它不应该是。
知道为什么会这样吗?
这是我的代码:
# loading df
from sklearn.datasets import load_boston
boston=load_boston()
boston_data = pd.DataFrame(data=boston.data, columns=boston.feature_names)
boston_data['price']=boston.target # the price column
现在如果我运行这段代码:
pd.isnull(boston_data).any()
这是结果:
CRIM False
ZN False
INDUS False
CHAS False
NOX False
RM False
AGE False
DIS False
RAD False
TAX False
PTRATIO False
B False
LSTAT False
dtype: bool
但是,如果我这样运行它:
any(boston_data.isnull())
它返回:True
为什么?..
pd.isnull(boston_data).any()
检查跨列的缺失值并为您案例中的所有列返回 False
any(boston_data.isnull())
检查所有列的缺失值并返回 True,因为 DF 中至少有一个缺失值