如何在catalog.yml中指定任意二进制文件

Question

我目前正在使用 LLM（大型语言模型）开展一个数据科学项目。模型的权重通常有不同的格式，最常见的是 .bin 或 .gguf，我希望保持这种格式。

但是，我知道存储二进制文件的唯一方法是使用类型：pickle.PickleDataset，如下所示

test_model: # simple example without compression
  type: pickle.PickleDataSet
  filepath: data/07_model_output/test_model.pkl
  backend: pickle

我对此不满意，因为我希望我的模型文件与语言无关。

在catalog.yml中指定任意二进制文件的正确方法是什么？如果我想从某个 URL 获取它或者通过运行某种从网络获取它的脚本怎么办？我应该为此创建一个单独的管道吗？

Answer 1

您可以实现您自己的特定格式的自定义数据集。我不熟悉LLM格式，但我认为二进制没有通用格式？

对于第二个问题，您可以使用 APIDataset 从某个端点获取。您可以将 HuggingfaceDataset 作为灵感。