我目前正在从头开始开发 T5 模型(编码器-解码器架构),用于教育目的。在从事这个项目时,我遇到了一些关于预训练目标的困惑,特别是去噪目标。我想澄清一下我的理解,并对流程有一些疑问。
给出句子:
感谢您上周邀请我参加您的聚会。
根据我的理解,在以去噪为目标的预训练阶段,模型的工作原理如下:
Thank you <X> me to your party <Y> week
<X> for inviting <Y> last
for inviting <Y> last <Z>
这是我的问题:
<X>
、<Y>
)。这是否可能会给模型带来混乱,例如,它可能认为单词“last”可能出现在标记之后?或者模型自然会学会正确解释这些情况?根据论文:
我们处理句子
随机选择单词Thank you for inviting me to your party last week.
、for
和inviting
进行腐败。每个连续的损坏令牌范围都被替换为在示例中唯一的哨兵令牌(显示为last
和<X>
)。由于<Y>
和for
连续出现,因此它们被单个哨兵inviting
取代。然后,输出序列由丢弃的跨度组成,由用于在输入中替换它们的哨兵标记以及最终的哨兵标记<X>
分隔。<Z>