Python Gensim字典

问题描述 投票:0回答:1

这是我的输入(样本*)

data = ["['human', 'interface', 'computer']",
 "['survey', 'user', 'computer', 'system', 'response', 'time']",
 "['eps', 'user', 'interface', 'system']",
 "['system', 'human', 'system', 'eps']",
 "['user', 'response', 'time']",
 "['trees']"]

而且我已经尝试实现

字典= corpora.Dictionary(文本数据)

但这是我得到的错误,

TypeError:doc2bow期望输入的是Unicode标记数组,而不是单个字符串

[如果您知道为什么不起作用,请帮助

python gensim
1个回答
0
投票

此错误意味着输入到doc2bow中的每个“句子”应为字符串数组(“令牌”),而您将每个“句子”作为字符串提供:

# Your input sentences:
data = [
    "['human', 'interface', 'computer']",
    "['survey', 'user', 'computer', 'system', 'response', 'time']",
    "['eps', 'user', 'interface', 'system']",
    "['system', 'human', 'system', 'eps']",
    "['user', 'response', 'time']",
    "['trees']"]

# Expected input sentences:
data = [
    ['human', 'interface', 'computer'],
    ['survey', 'user', 'computer', 'system', 'response', 'time'],
    ['eps', 'user', 'interface', 'system'],
    ['system', 'human', 'system', 'eps'],
    ['user', 'response', 'time'],
    ['trees']]
© www.soinside.com 2019 - 2024. All rights reserved.