我很困惑,因为Google无法用每个人的个人词汇训练他们的文本生成模型。
我试图开发类似的东西,但是当神经网络训练期间课程数量变得动态时,我陷入了困境。
如果我不知道类的数量,如何1给出层的大小和输入的大小。
让Google知道英语vocab中的单词,我把from语中的一些单词包含在我的个人词典中,将来可以向我建议这些单词。
假设google vocab由10个单词组成,我按顺序给它5个单词,将其热编码为大小为1和0的(5x10)向量。
然后我加入4个新词。现在vocab的总大小= 14
但是RNN(如果使用的话)仅使用10个单词的词汇来训练。它不能对那些新词进行编码,因为在训练时那些词不属于词汇。
是否使用大小为(5x14)的向量重新训练其文本生成模型?
根据此Google AI article,他们结合使用了两种方法:
根据您的情况,我建议以下内容: