如何处理Azure Machine Learning Studio中数据集的频繁更改?

问题描述 投票:1回答:2

如何处理Azure Machine Learning Studio中数据集中的频繁更改。我的数据集可能会随着时间而变化,我需要向数据集添加更多行。我将如何刷新数据集当前用于通过使用新近更新的数据集训练模型的方法。我需要这项工作以编程方式(在C#或python中)完成,而不是在工作室中手动完成。

python azure azure-machine-learning-studio azure-machine-learning-service
2个回答
1
投票

注册AzureML数据集时,不会移动任何数据,只会存储一些信息,例如数据的位置以及应如何加载。目的是使访问数据像调用dataset = Dataset.get(name="my dataset")

一样简单

在下面的代码段(full example)中,如果我注册数据集,则在注册后我可以从技术上用新版本覆盖weather/2018/11.csv,并且我的数据集定义将保持不变,但是如果您使用新数据,覆盖后用于培训。

# create a TabularDataset from 3 paths in datastore
datastore_paths = [(datastore, 'weather/2018/11.csv'),
                   (datastore, 'weather/2018/12.csv'),
                   (datastore, 'weather/2019/*.csv')]
weather_ds = Dataset.Tabular.from_delimited_files(path=datastore_paths)

但是,还有另外两种推荐的方法(我的团队同时使用两种方法)

  1. 隔离数据并注册数据集的新版本,以便您始终可以回滚到数据集版本的先前版本。 Dataset Versioning Best Practice
  2. 使用通配符/ glob数据路径来引用定期将新数据加载到其中的文件夹。这样,您可以使Dataset的大小随时间增长,而无需重新注册。

0
投票

对您有用吗?https://stackoverflow.com/a/60639631/12925558

您可以操纵数据集对象

© www.soinside.com 2019 - 2024. All rights reserved.