蒙面语言模型处理，更深入的解释

问题描述投票：0回答：1

我正在寻找BERT模型（you can found the description here）的详细信息，我很清楚需要在20％的时间内保留或替换随机字，或者只使用[MASK]令牌来掩盖语言模型。

我们尝试训练双向技术，文章解释“在微调过程中从未见过[MASK]令牌”但对我来说这是两个不同的步骤，我们首先进行双向训练，然后进行下游任务。