我注意到技术上,人们将文本URL,数字和日期转换为。手套数据集是否已针对这些占位符进行过嵌入训练。我可以直接将它们输入数据集中吗?
您可以在word2vec / lovelove培训课程中提供您想要的任何令牌。
但是,通常会省略或合并具有很多内部变化但语义很少或分散的语义(或每个单独变体的示例太少)的令牌,或者将它们合并为合成的替换令牌。
例如,每个数字都可能变为'__NUM__'
。 (或放入'__1DIGITNUM__'
,'__2DIGITNUM__'
等远程存储区中),日期可能会变成'__DATE__'
。 (或者,像'__1700s__'
,'__1990s'
等存储桶)
[任何特定的预训练模型可能要完成的操作都需要直接与模型的创建者一起检查,或者通过探测模型中的标记来检查。当然,您应该针对要根据预先训练的向量集查找的任何实体/令牌提供类似的规范化。
因此,您的设定的任务完全取决于您,如果您自己进行培训,或者取决于特定项目的事先决定,因此仅对确定的特定项目/数据集/代码库有效。] >