如何防止 Kaggle 在每次会话结束和重新启动时重新下载模型文件?

问题描述 投票:0回答:2

我想将下载的模型数据保存在kaggle笔记本中

这里是我的 Kaggle 笔记本示例:https://www.kaggle.com/furkangozukara/tglobal-xl-booksum-wip3r3

每当会话结束并重新启动时,它都会从 Huggingface 重新下载所有模型数据

例如,下图显示了从导入的存储库下载的模型数据:https://huggingface.co/pszemraj/long-t5-tglobal-large-pubmed-3k-booksum-16384-WIP/tree/main

kaggle
2个回答
1
投票

您可以使用

/kaggle/working
目录,它是 Kaggle 环境中的持久存储位置。将您的模型文件保存在那里,它们将在会话中持续存在。

保存:

model = # download from huggingface the 1st time #
tokenizer = # download from huggingface the 1st time #
...
import os, shutil
model_path = os.path.join('/kaggle/working', "YOUR_MODEL_NAME")
if os.path.exists(model_path): shutil.rmtree(model_path)
os.mkdir(model_path)
model.save_pretrained(model_path)
tokenizer.save_pretrained(model_path)

用途:

AutoModelForSeq2SeqLM.from_pretraiend(model_path)
AutoTokenizer.from_pretraiend(model_path)

0
投票

也许这就是您一直在寻找的设置。在

Notebook Options
下,有一个标记为
PERSISTENCE
的设置。您可以从下拉菜单中选择
Variable and Files
来获取变量和文件的持久存储。

© www.soinside.com 2019 - 2024. All rights reserved.