激活函数高斯误差线性单元(GELU)用于流行的 NLP 模型BERT。有什么实在的理由吗?
尚不清楚为什么某些激活函数在不同的上下文中比其他激活函数效果更好。所以“为什么使用 GELU 而不是 ReLu”的唯一答案是“因为它效果更好”
编辑:可能有一些解释,请参阅此博客。
relu
gelu
GELU 是 RELU 的更平滑版本。
ReLU 与 GELU:
我认为原因已在论文中说明: