使用tensorflow_datasets API访问已下载的数据集

Question

我正在尝试使用最近发布的tensorflow_dataset API在Open Images Dataset上训练Keras模型。数据集大小约为570 GB。我使用以下代码下载了数据：

import tensorflow_datasets as tfds
import tensorflow as tf

open_images_dataset = tfds.image.OpenImagesV4()
open_images_dataset.download_and_prepare(download_dir="/notebooks/dataset/")

下载完成后，与我的jupyter笔记本的连接以某种方式中断，但提取似乎也已完成，至少所有下载的文件都在“提取”文件夹中有对应的文件。但是，我现在无法访问下载的数据：

tfds.load(name="open_images_v4", data_dir="/notebooks/open_images_dataset/extracted/", download=False)

这只会出现以下错误：

AssertionError: Dataset open_images_v4: could not find data in /notebooks/open_images_dataset/extracted/. Please make sure to call dataset_builder.download_and_prepare(), or pass download=True to tfds.load() before trying to access the tf.data.Dataset object.

当我调用函数download_and_prepare（）时，它只会再次下载整个数据集。

我在这里错过了什么吗？

编辑：下载后，“已提取”下的文件夹有18个.tar.gz文件。

Answer 1

这是使用tensorflow-datasets 1.0.1和tensorflow 2.0。

文件夹层次结构应如下所示：

/notebooks/open_images_DataSet/extracted/open_images_V4/0.1.0

所有数据集都有一个版本。然后可以像这样加载数据。

ds = tf.load('open_images_v4', data_dir='/notebooks/open_images_dataset/extracted', download=False)

我没有open_images_v4数据。我将cifar10数据放入名为open_images_v4的文件夹中，以检查tensorflow_datasets期望的文件夹结构。

Answer 2

解决方案是在初始化数据集时也使用“data_dir”参数：

builder = tfds.image.OpenImagesV4(data_dir="/raid/openimages/dataset")
builder.download_and_prepare(download_dir="/raid/openimages/dataset")

这样，数据集就会被卸载并提取到同一目录中。之前，（对我来说不明显）提取到默认目录，这是在/home/.../下。这就是导致错误的原因，因为我的主目录下没有足够的空间。提取后，文件夹结构与Manoj-Mohan描述的完全一样。

使用tensorflow_datasets API访问已下载的数据集

问题描述投票：0回答：2

2个回答

最新问题

使用tensorflow_datasets API访问已下载的数据集

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2