我正在训练一个神经网络。因此,我用下面的代码读取了182335张图片(png-文件)。
folders = glob.glob(r'path\to\images\*')
imagenames_list = []
for folder in folders:
for f in glob.glob(folder+'/*.png'):
imagenames_list.append(f)
read_images = []
for image in imagenames_list:
read_images.append(cv2.imread(image))
在对数据进行一些预处理后,我创建了一个pandas数据框架,并将其保存为pickle-file。
df.to_pickle(r'data\data_as_pddataframe.pkl')
df.head()
由于图片数量巨大,我有一个相对较大的pickle文件(3GB)。正因为如此,它在这个文件中的读取持续了一些时间,也需要大量的内存。此外,当我要在Google Colab中训练网络时,由于数据量太大,Colab会崩溃。
因此,有没有一种更有效的方法1.读取数据,2.存储数据框架?
谢谢!我正在训练一个神经网络。
我会这样做。