在本页(https://pytorch.org/docs/stable/torchvision/models.html)中,它说:“所有经过预训练的模型都希望输入图像以相同的方式归一化,即形状为(3 x H x W)的3通道RGB图像的微型批次,其中H和W至少应为224。必须将图像加载到[0,1]的范围内,然后使用mean = [0.485, 0.456, 0.406]
和std = [0.229, 0.224, 0.225]
”进行标准化。
[归一化的通常mean
和std
应该不是[0.5, 0.5, 0.5]
和[0.5, 0.5, 0.5]
吗?为什么设置这么奇怪的值?
使用Imagenet的均值和标准差是常见的做法。它们是根据数百万张图像计算得出的。如果要在自己的数据集上从头开始训练,则可以计算新的均值和标准差。否则,建议使用Imagenet预设模型及其平均值和标准差。