蒙面语言模型处理,更深入的解释

问题描述 投票:0回答:1

我正在寻找BERT模型(you can found the description here)的详细信息,我很清楚需要在20%的时间内保留或替换随机字,或者只使用[MASK]令牌来掩盖语言模型。

我们尝试训练双向技术,文章解释“在微调过程中从未见过[MASK]令牌”但对我来说这是两个不同的步骤,我们首先进行双向训练,然后进行下游任务。

如果有人能向我解释我理解错误的地方。

nlp stanford-nlp
1个回答
1
投票

如果您在训练期间不使用随机替换,您的网络将无法学习从非掩码令牌中提取有用的功能。

换句话说,如果您只使用屏蔽并尝试预测它们,那么为您的网络提取非屏蔽令牌的良好功能将浪费资源(请记住,您的网络与您的任务一样好,它会尝试找到解决任务的最简单方法)

© www.soinside.com 2019 - 2024. All rights reserved.