LSTM RNN 下一个词预测模型继续预测最频繁的词

问题描述投票：0回答：0

我目前正在尝试在 Google colab 上使用 Python（keras 和 nltk 包）构建下一个单词预测机器学习模型。

我在 nltk 中使用了 twitter 语料库，并使用 keras 构建了具有 2 个双向 LSTM 层（64 个嵌入层节点）的 RNN 模型。我的批量大小为 64，周期为 150（通常不会用完，因为我提前停止了）。最初，这只返回最常见的词，所以我还使用 class_weight 为每个词分配与其频率成反比的不同权重（在 model.fit 函数中），但结果仍然相同。我已经认为这可能会发生，因为困惑度总是接近 1，这是极不可能的。

现在我不知道该怎么做才能解决这个问题。我希望模型选择上下文中最可能出现的词，而不是整体上出现频率最高的词。任何见解或建议表示赞赏！如果您需要任何其他信息，请告诉我。

在 model.fit() 中添加 class_weight 变量

python

machine-learning

google-colaboratory

lstm

recurrent-neural-network

LSTM RNN 下一个词预测模型继续预测最频繁的词

问题描述 投票：0回答：0

最新问题

问题描述投票：0回答：0