我已经在一个特定的 NLP 项目上工作了一个月,并且遇到了一个又一个错误。我在我的土豆 PC 上构建了一个小型模型,它运行得很好。我将其升级到 Kaggle 并遇到了多个错误,这让我非常沮丧!我一直在探索所有单独的包,你瞧,Kaggle 包中缺少许多方法!
一个完美的例子是
Dataset
包中的 datasets
类:我的电脑和 Kaggle 上的版本是 2.17.1
但是Kaggle中的类缺少很多必要的方法,比如
from_generator()
!您可以亲自查看,只需安装 datasets
软件包,然后在本地计算机和 Kaggle 上执行以下操作并记下差异:
from datasets import Dataset
dir(Dataset)
这就是导致我大部分错误的原因。这是如何以及为何发生的?有没有办法启用 Kaggle 上的所有基本方法,例如
from_generator()
?
我遇到了同样的问题,也许其他人也会遇到,所以这就是解决方法:
运行这些命令中的一个
!pip install datasets
#might give you an older one
!pip install datasets==2.18.0
#currently the newest, check PyPi for newest version
!pip install git+https://github.com/huggingface/datasets.git
#use the dev version (might have bugs, but is def the newest)
在 Kaggel 中进行 RELOAD 内核,我不知道为什么,但对于这个库来说这是必要的。
检查版本
import datasets; print(datasets.__version__)