用于文本处理的Keras'one_hot'。

Question

假设我有一连串的词句。"我喜欢食物"

如果我用keras one_hot.enconde，它给我的值如下：[10，39，17]。

from keras.preprocessing.text import one_hot
one_hot('I like food',50)

它给我的值如下：[10, 39, 17]

然而，假设我有一个这样的条目序列。['Add more', 'Add less', 'Do little more']这里的每一个条目就像一个句子中的一个词。因此，我想将'Add more'、'Add less'和'Do little more'编码为一个词。所有的条目都由完整的序列或句子组成。

我怎样才能像keras中的one_hot那样进行编码。使用 one_hot 会显示错误。

'list'对象没有属性'low'。

Answer 1

典型的方法是对文本进行预处理，并将带下划线的单词组合起来。所以您输入到Keras的内容应该是这样的。

"add_more add_less do_little_more"

通常这是对正常语言中经常一起使用的短语进行预处理，比如 "New York"，这些短语有时被称为 "纽约"。多词表达 (MWEs)在学术论文中。如果你把很多这样的词组合在一起，最后可能会出现数据太稀疏的情况，但你可以试试。