当我使用预训练模型时遇到一些问题:w2v_512.model。
错误是“密钥‘xxx’不存在”
我认为这可能是“xxx”这个词无法从w2v_512.model转换为嵌入,因为模型在预训练过程中没有看到这个词。
我想知道如何解决。如果我使用 BERT 嵌入会有帮助吗?如果是这样,如何使用 BERT 来获得嵌入。
如果有人回答我,我将不胜感激!
一组 word2vec 向量只能为训练时包含的单词提供向量。
你可以:
我相信 BERT 模型也可以理解从子词标记构建的单词,有点像 FastText,因此可以提供任意单词的嵌入。所以,你可以尝试一下,看看它是否适合你。但是,任何此类嵌入的质量仍然取决于模型围绕该单词和类似单词的训练效果。因此,为了实现您的目标,您应该始终检查结果的效果如何 – 模型可以返回您可以使用的嵌入这一事实并不足以确保嵌入值得使用。