我们使用Google AutoML与表格使用输入作为CSV文件。我们导入了数据,将所有模式与可空列和火车模型相关联,然后部署并使用在线预测来预测一列的值。
我们定位的列具有min-max值(44-263)。
当我们部署并运行在线预测时,它会返回这样的值
预测结果
0.49457597732543945
95%的预测间隔
[-8.209495544433594, 0.9892584085464478]
大多数结果集都是以上格式。我们如何将其转换为(44-263)范围内的值。没有找到相同的在线文档。
寻找文档参考和解释以及95%预测的解释。
实际上澄清(我是AutoML表的PM) -
AutoML Tables不对标签数据的预测值进行任何标准化,因此如果您希望标签数据的分布为最小/最大44-263,则输出预测也应该在该范围内。两种可能性会使它显着不同:
1)您选择了错误的标签栏
2)此预测的输入功能与使用的训练数据中显着不同。
如果您希望我们帮助进一步调试,请随时联系[email protected]
Google AutoML会自动规范您的日期:
像这样:
normalized_df=(df-df.mean())/df.std()
因此,你只需要输出denormalize
,这是一个python示例:
def denormalize(df,norm_data):
df = df['targeted_column'].values.reshape(-1,1)
norm_data = norm_data.reshape(-1,1)
scl = MinMaxScaler()
tmp_ = scl.fit_transform(df)
new = scl.inverse_transform(norm_data)
return new
或者只是乘以标准差并添加原始数据的均值
参考文献:不幸的是,该项目没有关于理论框架的明确文件。尽管如此,他们有很棒的publication帮助我理解他们的AutoML模型。此外,这里有一个非常详细的解释为什么“should you normalize/standardize/rescale the data”它也有转换公式。