为什么BERT中使用“GELU”激活函数而不是ReLu?

问题描述 投票:0回答:2

激活函数高斯误差线性单元(GELU)用于流行的 NLP 模型BERT。有什么实在的理由吗?

deep-learning nlp
2个回答
13
投票

尚不清楚为什么某些激活函数在不同的上下文中比其他激活函数效果更好。所以“为什么使用 GELU 而不是 ReLu”的唯一答案是“因为它效果更好”

编辑:可能有一些解释,请参阅此博客

relu
可能会遇到“网络中大量神经元变为零并且实际上不做任何事情的问题”。
gelu
在零附近更平滑,并且“在所有范围内都是可微分的,并且允许在负范围内有梯度(尽管很小)”,这有助于解决这个问题。


6
投票

GELU 是 RELU 的更平滑版本。

ReLU 与 GELU:

我认为原因已在论文中说明:

© www.soinside.com 2019 - 2024. All rights reserved.