在 T5 Hugging 面部代码中(例如参见 this),输入似乎“从未标准化”,在以下意义上:每个组件输出:
input + component_fct(norm(input))
直觉上,我觉得拥有:
norm(input) + component_fct(norm(input))
这样做有理由吗?