当我尝试重现结果时,我发现放大批量大小后线性层的输出有所不同。我试图找到错误的确切位置,我发现了
((input @ weight.T)[1] == (input[1] @ weight.T)) == 0).sum()
为正值。这是pytorch的数值错误,还是我做错了什么?如果有人能提供帮助,我将不胜感激。
P.S.:我已经完成了这些步骤
model.eval() with torch.no_grad(): ...