所以,我目前正在完成一个关于泰坦尼克数据集的教程(https:/www.kaggle.comctitanicdata).现在我正在尝试一些新的东西,可能与之有关。
它的信息是 。有 891条(红色星号)和 有NaN值的列(蓝色虚线)。.
当我去找一个缺失值的小结时,我被以下内容搞糊涂了 .sum()
& .count()
:
在上述代码中, .sum()
每出现一个空值,就递增一个。因此,似乎输出的是数据框架中每一列有多少个缺失条目的值。(这是我想要的)
然而 如果我们 .count()
无论我们是否使用了 .isnull().count()
或 .notnull().count()
.
所以我的问题是:
什么是 .count()
在这种情况下是什么意思?
我以为它会计算想要的方法的每一个实例(在这种情况下,一个null或不null条目的每一个实例;基本上是指 .sum()
了)。)
另外;我的 "定义 "是如何 .sum()
被使用,是这样吗?
只要打印出train_df.isnull()的数据,你就会看到它。
# data analysis and wrangling
import pandas as pd
import numpy as np
# visualization
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
train_df = pd.read_csv('train.csv')
print(train_df.isnull())
结果。
PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket \
0 False False False False False False False False False
1 False False False False False False False False False
2 False False False False False False False False False
3 False False False False False False False False False
4 False False False False False False False False False
.. ... ... ... ... ... ... ... ... ...
886 False False False False False False False False False
887 False False False False False False False False False
888 False False False False False True False False False
889 False False False False False False False False False
890 False False False False False False False False False
它得到了891行,充满了Trues和False。
print(False+False+True+True)
2
当然,无论你使用.isnull().count()还是.notnull().count(),每列都会得到891个。