用于文本处理的Keras'one_hot'。

问题描述 投票:1回答:1

假设我有一连串的词句。"我喜欢食物"

如果我用keras one_hot.enconde,它给我的值如下:[10,39,17]。

from keras.preprocessing.text import one_hot
one_hot('I like food',50)

它给我的值如下:[10, 39, 17]

然而,假设我有一个这样的条目序列。['Add more', 'Add less', 'Do little more']这里的每一个条目就像一个句子中的一个词。因此,我想将'Add more'、'Add less'和'Do little more'编码为一个词。 所有的条目都由完整的序列或句子组成。

我怎样才能像keras中的one_hot那样进行编码。使用 one_hot 会显示错误。

'list'对象没有属性'low'。

tensorflow keras nlp word-embedding python-textprocessing
1个回答
0
投票

典型的方法是对文本进行预处理,并将带下划线的单词组合起来。所以您输入到Keras的内容应该是这样的。

"add_more add_less do_little_more"

通常这是对正常语言中经常一起使用的短语进行预处理,比如 "New York",这些短语有时被称为 "纽约"。多词表达 (MWEs)在学术论文中。如果你把很多这样的词组合在一起,最后可能会出现数据太稀疏的情况,但你可以试试。

© www.soinside.com 2019 - 2024. All rights reserved.