在jupyter中查看拥抱人脸数据

问题描述 投票:0回答:1

预计到达时间:这非常明显。我需要做的就是(在数据调用中指定分割后)添加

.to_pandas()

我已经浏览了文档,但没有找到我需要的东西,我觉得我有点疯了。我想也许我只是没有搜索正确的术语或遗漏了一些非常明显的东西。

我安装了拥抱面部数据集库,并且能够成功从我的笔记本中的集线器下载数据集。

from datasets import load_dataset
ds = load_dataset("papluca/language-identification")

当我运行

ds
时,我看到以下内容:

DatasetDict({
    train: Dataset({
        features: ['labels', 'text'],
        num_rows: 70000
    })
    validation: Dataset({
        features: ['labels', 'text'],
        num_rows: 10000
    })
    test: Dataset({
        features: ['labels', 'text'],
        num_rows: 10000
    })
})

问题是,一旦它进入我的笔记本,我似乎无法弄清楚如何访问数据本身。我希望它位于 pandas 数据框中,以便我可以像平常一样处理数据。我确实发现,如果我运行下面的代码(指定

train
作为分割),它会将
type(ds)
更改为数据集,但我仍然不知道如何实际查看数据本身。

ds = load_dataset("papluca/language-identification", split="train")

当我运行

ds
时,它会返回

Dataset({
    features: ['labels', 'text'],
    num_rows: 70000
})

我缺少什么(可能非常明显)步骤来处理数据,以便如果我运行类似

df.head()
的内容,它将返回以下内容?

id | text               | language
0  | the grass is green | english
1  | bonjour, ca va?    | french
2  | como se dice       | spanish
jupyter-notebook jupyter huggingface-datasets
1个回答
0
投票

首先需要将 HF 数据集转换为 pandas

df = ds['train'].to_pandas()

然后

df.head() 工作正常。

© www.soinside.com 2019 - 2024. All rights reserved.