解释Google AutoML在线预测结果

问题描述 投票:2回答:2

我们使用Google AutoML与表格使用输入作为CSV文件。我们导入了数据,将所有模式与可空列和火车模型相关联,然后部署并使用在线预测来预测一列的值。

我们定位的列具有min-max值(44-263)。

当我们部署并运行在线预测时,它会返回这样的值

预测结果

0.49457597732543945 

95%的预测间隔

[-8.209495544433594, 0.9892584085464478] 

大多数结果集都是以上格式。我们如何将其转换为(44-263)范围内的值。没有找到相同的在线文档。

寻找文档参考和解释以及95%预测的解释。

google-cloud-automl google-cloud-automl-nl
2个回答
2
投票

实际上澄清(我是AutoML表的PM) -

AutoML Tables不对标签数据的预测值进行任何标准化,因此如果您希望标签数据的分布为最小/最大44-263,则输出预测也应该在该范围内。两种可能性会使它显着不同:

1)您选择了错误的标签栏

2)此预测的输入功能与使用的训练数据中显着不同。

如果您希望我们帮助进一步调试,请随时联系[email protected]


3
投票

Google AutoML会自动规范您的日期:

像这样:

normalized_df=(df-df.mean())/df.std()

因此,你只需要输出denormalize,这是一个python示例:

def denormalize(df,norm_data):
    df = df['targeted_column'].values.reshape(-1,1)
    norm_data = norm_data.reshape(-1,1)
    scl = MinMaxScaler()
    tmp_ = scl.fit_transform(df)
    new = scl.inverse_transform(norm_data)
    return new

或者只是乘以标准差并添加原始数据的均值

  • BTW您给出的间隔称为置信区间,这意味着您尝试预测的实际值超出该区间的概率低于5%,因此95%的置信度

参考文献:不幸的是,该项目没有关于理论框架的明确文件。尽管如此,他们有很棒的publication帮助我理解他们的AutoML模型。此外,这里有一个非常详细的解释为什么“should you normalize/standardize/rescale the data”它也有转换公式。

© www.soinside.com 2019 - 2024. All rights reserved.