我有以下问题:我很好奇是否可以在文本生成中使用迁移学习,以将其重新训练为特定类型的文本。
此任务的示例为:拥有经过预先培训的Bert和一小部分医学(或任何“类型”)文本,请创建一个生成医学文本的语言模型。假设您没有大量的“医学文献”,这就是为什么您必须使用迁移学习的原因。
以管道方式,我将其描述为:0.从拥抱的面孔使用预训练的bert标记器和语言模型。1.从我的新文本中计算新标记并将它们添加到经过预训练的标记中。2.使用混合标记器在我的自定义文本上重新训练预训练模型。3.生成看起来像自定义文本的文本。
听起来听起来很熟悉吗?可以抱抱脸吗?
我没有听说您刚才提到的管道。为了为您的用例构造一个LM,您基本上有两个选择:
您自己的语料库上的进一步训练BERT(-base / -large)模型。此过程也称为domain-adaption,如此recent paper中所述。这将使BERT模型的学习参数适应您的特定领域(生物/医学文本)。尽管如此,对于此设置,您将需要相当大的语料库来帮助BERT模型更好地更新其参数。
使用从头开始在特定于域的文本语料库上进行预训练的预训练语言模型。您可能知道,Google发布的香草BERT模型已在Wikipedia文本上进行了训练。香草BERT之后,研究人员已尝试在其他域(而不是专门用于Wikipedia)上训练BERT体系结构。您可能可以使用对领域特定语言有深刻理解的这些经过预训练的模型。对于您的情况,有一些模型,例如:BioBERT,BlueBERT和SciBERT。
拥抱脸有可能吗?
我不确定拥抱的开发人员是否开发了一种健壮的方法来对自定义语料库上的BERT模型进行预训练,因为他们声称他们的代码仍在进行中,但是如果您对此步骤感兴趣,我建议您使用Google research's bert代码已经用Tensorflow编写。在其自述文件中的Pre-training with BERT
部分下,已经声明了确切的过程。