如何处理Azure Machine Learning Studio中数据集中的频繁更改。我的数据集可能会随着时间而变化,我需要向数据集添加更多行。我将如何刷新数据集当前用于通过使用新近更新的数据集训练模型的方法。我需要这项工作以编程方式(在C#或python中)完成,而不是在工作室中手动完成。
注册AzureML数据集时,不会移动任何数据,只会存储一些信息,例如数据的位置以及应如何加载。目的是使访问数据像调用dataset = Dataset.get(name="my dataset")
在下面的代码段(full example)中,如果我注册数据集,则在注册后我可以从技术上用新版本覆盖weather/2018/11.csv
,并且我的数据集定义将保持不变,但是如果您使用新数据,覆盖后用于培训。
# create a TabularDataset from 3 paths in datastore
datastore_paths = [(datastore, 'weather/2018/11.csv'),
(datastore, 'weather/2018/12.csv'),
(datastore, 'weather/2019/*.csv')]
weather_ds = Dataset.Tabular.from_delimited_files(path=datastore_paths)
但是,还有另外两种推荐的方法(我的团队同时使用两种方法)
Dataset
的大小随时间增长,而无需重新注册。对您有用吗?https://stackoverflow.com/a/60639631/12925558
您可以操纵数据集对象