问题:假设您有4个GPU(每个都有2GB内存)来训练您的深度学习模型。您的数据集中有1000个数据点,大约需要10 GB的存储空间。对于一个设备(使用TF中的镜像策略)的批量大小,什么是最佳选择?
有人可以帮助我解决此分配问题吗?预先感谢。
每个GPU的内存为2GB,并且有4个GPU,这意味着您总共可以使用8 GB的内存。现在您无法一次将10 GB的数据划分为8 GB,因此您将10GB的数据分为两半,并且总批量大小为500个数据点(或者为512,更接近于2的幂)]
现在,您将这500个数据点分布在4个GPU上,每个设备的批处理大小约为128个数据点。
因此,整体批处理大小将为512个数据点,而每个GPU批处理大小将为128。