为什么 Huggingface T5 模型的输出中添加了非标准化输入?

问题描述 投票:0回答:0

在 T5 Hugging 面部代码中(例如参见 this),输入似乎“从未标准化”,在以下意义上:每个组件输出:

input + component_fct(norm(input))
。因此,初始网络输入不断被添加到越来越多的张量中,这是将当前子组件应用于其归一化输入的结果。

直觉上,我觉得拥有:

norm(input) + component_fct(norm(input))
更有意义,这样我们就可以添加相同数量的东西。

这样做有理由吗?

normalization huggingface-transformers
© www.soinside.com 2019 - 2024. All rights reserved.