使用mode()替换列中Dtype=object的nans有什么好处?

问题描述 投票:0回答:1

我目前正在学习机器学习,我看到一个教程,当列的Dtype=object时,nans会被列的mode替换。

其中特别的一行是。

test_df['MSZoning']=test_df['MSZoning'].fillna(test_df['MSZoning'].mode()[0])

当检查MSZoning的值是什么的时候

test_df['MSZoning'].value_counts()

输出是

RL         1114
RM          242
FV           74
C (all)      15
RH           10

取了mode,填了nans之后,输出的结果好像是一样的。

我不清楚mode()在这里到底是干什么的。不知道有没有人可以帮我解决这个问题。

这个数据的笔记本。 https:/github.comkrishnaik06Kaggle-CompetitionsblobmasterAdvance%20House%20PRice%20PRedictionHandleTestData.ipynb。

python machine-learning data-science mode
1个回答
1
投票

不知道为什么这对你不起作用。模式通常应该用列中出现最多的值来填充缺失的值。在这种情况下,它应该用 "RL "来填充。你确定该列有缺失的值吗?

我最近在处理这个数据,并没有在这个特定的列中发现任何缺失值。

© www.soinside.com 2019 - 2024. All rights reserved.