我正在研究一个Kaggle机器学习项目(https:/www.kaggle.comchouse-prices-advanced-regression-techniques),而我的目标变量是某个房子的 "SalePrice"。
绘制数据后,我可以看到我的 目标变量不呈正态分布,且具有正偏度。
所以,我(算是)将其规范化,通过 旁敲侧击
当我以后用我的回归器进行预测时,我是不是要预测销售价格的对数?在这种情况下,我应该怎么做?
是只做逆向变换就可以了,还是数学或统计学上的错误?
简短的回答:是的,你的模型会预测房价的对数,取其指数(从数学上讲)回到实际房价也没有错。
先不说统计学,如果你的训练数据取了房价的对数,你的算法并不 "知道",只是换了一组数字而已,你的回归者也只是会拟合到不同的曲线上。
一个实际问题是,当你取你输出的指数时,你最好对预测数字的精度相当有信心。你的对数预测的房价,经过指数化之后,一个小小的差异,就可能使你的产出产生很大的差异。你的模型能够达到这样的精度吗?