假设我有一个数据集,由于Kaggle笔记本环境的限制,我决定将一个大的数据集分割成 "块";A、B和C。如果我按以下方式训练模型,会不会有什么不同。
A ---> 10个纪元.
B--> 10个时代
C--> 10个时代
与这种方法相比。
此外,如果有区别,我认为有,但不确定,那么一种方法是否比另一种方法更好?
对于机器学习来说,基本上你要把所有的训练数据全部放在一起,这样你的模型就不会遗漏任何一个数据集所包含的模式。而我想说的是,在你训练你的模型之前,还有一个很大的步骤,那就是 洗牌. 想象一下,你被要求一直做纯数学,突然老师把你放在一道地理题面前,让你去解,你会有点不知所措,机器也是一样的! 所以一定要用所有的数据来训练你的模型,如果你的A-->B-->C[Epoch 1]是一个洗牌数据,那就好办了,还是要洗牌。