如何处理数据集中的离散变量? [关闭]

问题描述 投票:-2回答:1

我有一个来自Kaggle的房屋数据集,有一些列是事物的数量(汽车,壁炉,房间等...)。我如何处理它们以将它们用作机器学习模型中的功能?我应该缩放它们或标记它们或其他?谢谢

python scikit-learn kaggle
1个回答
0
投票

我会尽力回答。

1)始终需要准备数据。您可能无需准备数据就可以从RF获得一些结果,但是当数据采用允许算法学习得更好的格式时,几乎总是可以得到更好的结果。

2)随着学习更多的ML方法,您将获得一种直觉,即哪种算法最适合哪种情况。例如,当处理某个数据集时(例如,当要素是类别或数字时),RF是重要的第一步。另一方面,通过神经网络可以更好地提供图像或声音。

3 +4)您所谈论的通常称为特征工程,并且是其本身的主题。可以说人们可以在谋生的地方找到工作。在尝试设计功能时,最简单的方法是建立一个简单的模型,查看哪些功能是最佳的,然后与它们一起使用以获得更好的结果(根据情况组合或仅考虑它们)。困难的方法要求您研究和理解数据背后的现实,这可以使您能够制作比原始数据更好的功能。

简而言之,做实验。尝试不同的组合以了解最有效的方法,并记住-机器学习比艺术还多于科学。

祝你好运!

© www.soinside.com 2019 - 2024. All rights reserved.