如何将具有多个输入列的 Spark ML 模型转换为 ONNX 并使用它来对动态批量大小进行评分?

问题描述 投票:0回答:1

我使用以下方法将具有动态批量大小的逻辑回归模型从 Spark ML 转换为 ONNX:

initial_types = [('Features', FloatTensorType([None, 5]))]
onnx_model = convert_sparkml(s_clf, 'Occupancy detection Pyspark Logistic Regression model', initial_types, spark_session = sess)

然后我使用下面的代码成功对 df1 进行了评分,这是一组形状为 (12417, 5) 的动态样本:

import onnxruntime as rt
sess = rt.InferenceSession(bmodel)
input_name = sess.get_inputs()[0].name
label_name = sess.get_outputs()[0].name
df1 = df[features_cols]
predictions = sess.run([label_name], {input_name: df1.values.astype(np.float32)})[0]

现在我尝试构建管道并转换为 ONNX。我尝试转换它的第一阶段,它只是一个 VectorAssembler,使用:

initial_types = [
('Temperature', FloatTensorType([None, 1])),
('Humidity', FloatTensorType([None, 1])),
('Light', FloatTensorType([None, 1])),
('CO2', FloatTensorType([None, 1])),
('HumidityRatio', FloatTensorType([None, 1])),
]
onnx_model = convert_sparkml(assembler, 'Occupancy detection Pyspark Assembler of features', initial_types, spark_session = sess).

尝试使用此代码使用它:

predictions = sess.run([label_name],
{
"Temperature": [df1.Temperature.values.astype(np.float32)],
"Humidity": [df1.Humidity.values.astype(np.float32)],
"Light": [df1.Light.values.astype(np.float32)],
"CO2": [df1.CO2.values.astype(np.float32)],
"HumidityRatio": [df1.HumidityRatio.values.astype(np.float32)],
})[0]

失败,出现 [ONNXRuntimeError]:2:INVALID_ARGUMENT:输入的维度无效:以下索引的 Light 索引: 1 得到: 12417 预期: 1.

为了测试,我通过添加 df1 = df1[:1] 选择了一个样本,然后上面的代码就可以工作了..

如何导出具有多个输入列的模型(如上面所示),以便我可以使用 onnxruntime 对动态批量大小对其进行评分?为什么 Logistic 回归可以完美地工作,而这个简单的 VectorAssembler 却失败了?

感谢您的帮助, 阿迪

apache-spark-ml scoring onnx onnxruntime
1个回答
0
投票

我大致解决了这个问题(因为onnx只支持FloatTensorType,但spark模型有Double类型)。 根据您的情况,请像这样更改 sess.run 中的 input_feed:

predictions = sess.run([label_name],
{
"Temperature": [df1.Temperature.values.astype(np.float32).reshape(-1,1)],
"Humidity": [df1.Humidity.values.astype(np.float32).reshape(-1,1)],
"Light": [df1.Light.values.astype(np.float32).reshape(-1,1)],
"CO2": [df1.CO2.values.astype(np.float32).reshape(-1,1)],
"HumidityRatio": [df1.HumidityRatio.values.astype(np.float32).reshape(-1,1)],
})[0]

因为脚本中的

initial_types
是二维的。

© www.soinside.com 2019 - 2024. All rights reserved.