澄清T5模型预训练目标和去噪过程

问题描述投票：0回答：1

我目前正在从头开始开发 T5 模型（编码器-解码器架构），用于教育目的。在从事这个项目时，我遇到了一些关于预训练目标的困惑，特别是去噪目标。我想澄清一下我的理解，并对流程有一些疑问。

给出句子：

感谢您上周邀请我参加您的聚会。

根据我的理解，在以去噪为目标的预训练阶段，模型的工作原理如下：

编码器输入：
```
Thank you <X> me to your party <Y> week
```
解码器输入：
```
<X> for inviting <Y> last
```
解码器标签（真实标签）：
```
for inviting <Y> last <Z>
```

这是我的问题：

我对编码器输入、解码器输入和解码器标签如何构造的解释是否正确？
在此设置中，模型预计能够预测哨兵标记（例如，
```
<X>
```
、
```
<Y>
```
）。这是否可能会给模型带来混乱，例如，它可能认为单词“last”可能出现在标记之后？或者模型自然会学会正确解释这些情况？

根据论文：

我们处理句子
Thank you for inviting me to your party last week.
随机选择单词
for
、
inviting
和
last
进行腐败。每个连续的损坏令牌范围都被替换为在示例中唯一的哨兵令牌（显示为
<X>
和
<Y>
）。由于
for
和
inviting
连续出现，因此它们被单个哨兵
<X>
取代。然后，输出序列由丢弃的跨度组成，由用于在输入中替换它们的哨兵标记以及最终的哨兵标记
<Z>
分隔。

nlp large-language-model

1个回答

0
投票

我认为我的解释是正确的，对于大型数据集，模型会理解哨兵指示缺失的部分。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.