从MNIST Dataset更改列车和测试集的大小

Question

我正在使用MNIST和Keras来了解CNN。我正在Keras API下载手写数字的MNIST数据库，如下所示。数据集已经分为60,000个图像用于训练，10.000个图像用于测试（参见Dataset - Keras Documentation）。

from keras.datasets import mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()

我如何加入培训和测试集，然后将它们分为70％用于培训，30％用于测试？

Answer 1

在mnist.load_data中没有这样的论点。相反，您可以通过numpy连接数据，然后通过sklearn（或numpy）拆分：

from keras.datasets import mnist
import numpy as np
from sklearn.model_selection import train_test_split

(x_train, y_train), (x_test, y_test) = mnist.load_data()
x = np.concatenate((x_train, x_test))
y = np.concatenate((y_train, y_test))

train_size = 0.7
x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=train_size, random_seed=2019)

为可重复性设置随机种子。

通过numpy（如果你不使用sklearn）：

# do the same concatenation
np.random.seed(2019)
train_size = 0.7
index = np.random.rand(len(x)) < train_size  # boolean index
x_train, x_test = x[index], x[~index]  # index and it's negation
y_train, y_test = y[index], y[~index]

您将获得大约所需大小的数组（~210xx而不是21000测试大小）。

mnist.load_data的源代码看起来像这个函数只是从已经拆分为60000/10000测试的URL中获取此数据，因此只有一个连接解决方法。

您还可以从http://yann.lecun.com/exdb/mnist/下载MNIST数据集并手动预处理，然后将其连接（根据需要）。但是，据我所知，它分为60000个培训示例和10000个测试示例，因为这种拆分用于标准基准测试。

从MNIST Dataset更改列车和测试集的大小

问题描述投票：2回答：1

1个回答

最新问题

从MNIST Dataset更改列车和测试集的大小

问题描述 投票：2回答：1

1个回答

最新问题

问题描述投票：2回答：1