Tensorflow使用XLA服务

问题描述 投票:2回答:1

在使用Tensorflow服务进行推理时是否可以启用XLA编译?

(我希望这只是一个无证件配置的问题,我可以避免实现自定义Servable)。

tensorflow-serving tensorflow-xla
1个回答
1
投票

@njs,

实际上并没有建议在推理期间进行编译。推理时间的编译将导致HBM内存不足,导致芯片无法提供请求。

建议的解决方案是:

  1. 使用允许批量大小的批处理功能来限制运行时的编译次数。
  2. 在模型加载时而不是推理时,对这些允许的批量大小进行所有编译。这样,您的模型就可以在加载后立即进行推理,而不是在推理时通过高延迟编译。
© www.soinside.com 2019 - 2024. All rights reserved.