我有一个包含段落的数据集,我需要将其分为两类。这些段落通常有 3-5 句话长。其中绝大多数的长度都不超过 500 字。我想利用 BERT 来解决这个问题。
我想知道应该如何使用 BERT 生成这些段落的向量表示,特别是,将整个段落传递给 BERT 是否可以?
这里和这里对相关问题进行了信息丰富的讨论。这些讨论重点是如何使用 BERT 来表示整个文档。就我而言,这些段落并没有那么长,实际上可以在不超过最大长度 512 的情况下传递给 BERT。但是,BERT 是在句子上进行训练的。句子是相对独立的意义单位。我想知道将多个句子输入 BERT 是否与模型的设计目的没有根本冲突(尽管这似乎是定期完成的)。
我认为你的问题是基于误解。尽管 BERT 论文 经常使用术语
sentence
,但它并不是指语言句子。论文将一个句子定义为
连续文本的任意范围,而不是实际的语言句子。
因此,将整个段落传递给 BERT 以及他们可以处理这些段落的原因是完全可以的。