损失是否取决于学习率和批量大小。例如,如果我将批次大小保持为4并且学习率设为0.002,则损失不会收敛,但是如果将批次大小更改为32并保持学习率不变,则会得到一条收敛的损失曲线。这样可以吗
我会说,损失很大程度上取决于您在训练中使用的参数。另一方面,就数学函数而言,我不会将其称为依赖性,而应将其称为关系。
如果您的网络无法学习,则需要调整参数(体系结构,学习率,批处理大小等)。
很难对您的问题给出更具体的答案。可以使用哪些参数取决于问题。但是,如果收敛,并且您可以验证您的解决方案,我会说您很好。