如何在catalog.yml中指定任意二进制文件

问题描述 投票:0回答:1

我目前正在使用 LLM(大型语言模型)开展一个数据科学项目。模型的权重通常有不同的格式,最常见的是 .bin 或 .gguf,我希望保持这种格式。

但是,我知道存储二进制文件的唯一方法是使用类型:pickle.PickleDataset,如下所示

test_model: # simple example without compression
  type: pickle.PickleDataSet
  filepath: data/07_model_output/test_model.pkl
  backend: pickle

我对此不满意,因为我希望我的模型文件与语言无关。

在catalog.yml中指定任意二进制文件的正确方法是什么?如果我想从某个 URL 获取它或者通过运行某种从网络获取它的脚本怎么办?我应该为此创建一个单独的管道吗?

python pipeline mlops kedro
1个回答
1
投票

您可以实现您自己的特定格式的自定义数据集。我不熟悉LLM格式,但我认为二进制没有通用格式?

对于第二个问题,您可以使用 APIDataset 从某个端点获取。您可以将 HuggingfaceDataset 作为灵感。

© www.soinside.com 2019 - 2024. All rights reserved.