我一直想知道是否可以将“数据准备”(.dprep)文件应用于score.py中的传入数据,类似于可以应用Pipeline对象的方式。这对模型部署非常有用。为了找到答案,我在MSDN论坛上问了这个问题并收到了response确认它是可能的,但很少解释如何实际做到这一点。答复是:
在score.py文件中,您可以从Python SDK调用dprep包,以将相同的转换应用于传入的评分数据。确保将.dprep文件捆绑在正在构建的图像中。
所以我的问题是:
run_on_data(user_config, package_path, dataflow_idx=0, secrets=None, spark=None)
?-f
得分文件?我扫描了整个documentation和Workbench Repo,但似乎无法找到任何例子。
我们欢迎所有的建议!
谢谢!
编辑:
场景:
我可以在'score.py'文件中使用什么函数来应用我在工作台中创建的相同转换?
我相信我可能找到了你需要的东西。
从this documentation您可以从azureml.dataprep
包装进口。
那里没有任何例子,但是在GitHub上搜索,我找到了this file,它具有以下功能来运行数据准备。
from azureml.dataprep import package
df = package.run('Data analysis.dprep', dataflow_idx=0)
希望有所帮助!
对我来说,看起来这可以通过使用run_on_data(user_config, package_path, dataflow_idx=0, secrets=None, spark=None)
模块中的azureml.dataprep.package
方法来实现。
run_on_data(user_config, package_path, dataflow_idx=0, secrets=None, spark=None)
基于内存数据源运行指定的数据流,并将结果作为数据帧返回。user_config
参数是一个字典,它将数据源(.dsource文件)的绝对路径映射到表示为列表列表的内存数据源。