在使用Tensorflow服务进行推理时是否可以启用XLA编译?
(我希望这只是一个无证件配置的问题,我可以避免实现自定义Servable)。
@njs,
实际上并没有建议在推理期间进行编译。推理时间的编译将导致HBM内存不足,导致芯片无法提供请求。
建议的解决方案是: