澄清T5模型预训练目标和去噪过程

问题描述 投票:0回答:1

我目前正在从头开始开发 T5 模型(编码器-解码器架构),用于教育目的。在从事这个项目时,我遇到了一些关于预训练目标的困惑,特别是去噪目标。我想澄清一下我的理解,并对流程有一些疑问。

给出句子:

感谢您上周邀请我参加您的聚会。

根据我的理解,在以去噪为目标的预训练阶段,模型的工作原理如下:

  • 编码器输入
    Thank you <X> me to your party <Y> week
  • 解码器输入
    <X> for inviting <Y> last
  • 解码器标签(真实标签)
    for inviting <Y> last <Z>

这是我的问题:

  1. 我对编码器输入、解码器输入和解码器标签如何构造的解释是否正确?
  2. 在此设置中,模型预计能够预测哨兵标记(例如,
    <X>
    <Y>
    )。这是否可能会给模型带来混乱,例如,它可能认为单词“last”可能出现在标记之后?或者模型自然会学会正确解释这些情况?

根据论文:

我们处理句子

Thank you for inviting me to your party last week.
随机选择单词
for
inviting
last
进行腐败。每个连续的损坏令牌范围都被替换为在示例中唯一的哨兵令牌(显示为
<X>
<Y>
)。由于
for
inviting
连续出现,因此它们被单个哨兵
<X>
取代。然后,输出序列由丢弃的跨度组成,由用于在输入中替换它们的哨兵标记以及最终的哨兵标记
<Z>
分隔。

nlp large-language-model
1个回答
0
投票
我认为我的解释是正确的,对于大型数据集,模型会理解哨兵指示缺失的部分。

© www.soinside.com 2019 - 2024. All rights reserved.