如果数据集内容更改但版本相同,Azure ML 作业会重新运行吗?

问题描述 投票:0回答:1

我想知道如果版本保持不变,Azure ML 作业是否能够检测到输入数据集的内容已更改?

我找不到有关重新运行/回收标准的文档。只有一个故障排除指南,指定输入需要相同才能回收,但没有解释比较的程度。 我的测试没有结论。首先,看起来好像检测到了变化(作业总是重新运行),但突然间,作业开始一直被回收。但可能中间有些设置发生了变化,尽管我不记得改变过任何东西......

背景: 我们希望每天的 Azure ML 作业在传入的、未版本化的数据上运行。 为了让 Azure ML 访问数据,我们希望使用 Azure ML 数据集,它仅指向存储并始终保持版本 1。 ML 代码消耗所提供的存储路径上的所有数据。 在每个日常作业之间,存储上的数据可能会发生变化(更多文件、更少文件、具有不同内容的相同文件、具有修改时间戳的相同文件)或保持不变。 理想情况下,Azure ML 作业能够识别存储上的数据何时发生更改并重新运行作业。如果数据没有改变,理想情况下 Azure ML 将回收之前的作业。

谢谢!

azure-machine-learning-service
1个回答
0
投票

数据资产为旧版本,存储中的文件频繁更改,仍然会导致管道重新运行作业。

文档中还提到,如果输入有任何变化,管道将重新运行作业。

如果您没有获得预期结果,请尝试按照您提供的文档中给出的步骤进行调试。主要检查步骤5,其中提到如何比较不同管道作业之间的输入数据集并了解这些管道组件之间的差异。

我尝试在同一 CSV 文件和数据资产版本中使用不同的数据,并且它成功地获取了这些更改的数据。

要进行比较,请启用以下选项

enter image description here

然后转到管道作业并将其添加到比较列表中。

enter image description here

然后您将可以选择通过图表和详细信息进行比较。

© www.soinside.com 2019 - 2024. All rights reserved.