我目前正在使用 LLM(大型语言模型)开展一个数据科学项目。模型的权重通常有不同的格式,最常见的是 .bin 或 .gguf,我希望保持这种格式。
但是,我知道存储二进制文件的唯一方法是使用类型:pickle.PickleDataset,如下所示
test_model: # simple example without compression
type: pickle.PickleDataSet
filepath: data/07_model_output/test_model.pkl
backend: pickle
我对此不满意,因为我希望我的模型文件与语言无关。
在catalog.yml中指定任意二进制文件的正确方法是什么?如果我想从某个 URL 获取它或者通过运行某种从网络获取它的脚本怎么办?我应该为此创建一个单独的管道吗?
您可以实现您自己的特定格式的自定义数据集。我不熟悉LLM格式,但我认为二进制没有通用格式?
对于第二个问题,您可以使用 APIDataset 从某个端点获取。您可以将 HuggingfaceDataset 作为灵感。