预计到达时间:这非常明显。我需要做的就是(在数据调用中指定分割后)添加
.to_pandas()
。
我已经浏览了文档,但没有找到我需要的东西,我觉得我有点疯了。我想也许我只是没有搜索正确的术语或遗漏了一些非常明显的东西。
我安装了拥抱面部数据集库,并且能够成功从我的笔记本中的集线器下载数据集。
from datasets import load_dataset
ds = load_dataset("papluca/language-identification")
当我运行
ds
时,我看到以下内容:
DatasetDict({
train: Dataset({
features: ['labels', 'text'],
num_rows: 70000
})
validation: Dataset({
features: ['labels', 'text'],
num_rows: 10000
})
test: Dataset({
features: ['labels', 'text'],
num_rows: 10000
})
})
问题是,一旦它进入我的笔记本,我似乎无法弄清楚如何访问数据本身。我希望它位于 pandas 数据框中,以便我可以像平常一样处理数据。我确实发现,如果我运行下面的代码(指定
train
作为分割),它会将 type(ds)
更改为数据集,但我仍然不知道如何实际查看数据本身。
ds = load_dataset("papluca/language-identification", split="train")
当我运行
ds
时,它会返回
Dataset({
features: ['labels', 'text'],
num_rows: 70000
})
我缺少什么(可能非常明显)步骤来处理数据,以便如果我运行类似
df.head()
的内容,它将返回以下内容?
id | text | language
0 | the grass is green | english
1 | bonjour, ca va? | french
2 | como se dice | spanish
首先需要将 HF 数据集转换为 pandas
df = ds['train'].to_pandas()
然后
df.head() 工作正常。