我练习的声明说:distribution of feature_3 is a hint of how the data is generated
。我试着去了解我应该从推断为我的ETL或ML模型的其余部分..
我策划了该功能的QQ图。分布似乎还算正常。我可以从这些信息对我的ETL或ML模型的其余部分推断出什么?
大多数机器学习模型的假设基础数据分布为他们运作良好。
所以,回到你的问题,有假设反馈到他们的数据是正态分布(或高斯)一些ML
技术。这些都是Gaussian naive Bayes
,Least Squares based (regression)
模型,LDA
,QDA
。所以,你是指的声明意味着你的数据是使用这种算法生成并呈正态分布。见,here对于这一点,here有关在Machine Learning
正态分布的重要性的解释简短的视觉解释。
此外,请注意,还有其他算法(例如SVM
s,用于Random Forests
/ regression
,classification
,Decision trees
等Gradient Boosted Trees
)不承担任何类型的基础数据的分布。