如果我想保留句子顺序，那么在NLTK中矢量化文本数据的最佳方法是什么？

我正在对文本数据进行分类，并希望将其输入模型中，但是我遇到了问题。我不想使用CountVectorizer，因为它不保留其结构，也不想由于效率低下而将每个单词手动转换为数组。

我可以使用哪些方法在这种情况下有所帮助。

谢谢

tensorflow keras nlp nltk

0
投票

这不是问题的直接答案，但提供了一个见解。如果单词顺序比单词袋方法重要，那么使用基于图的模型将有所帮助。例如，pycrfsuite是一个很好的起点。