Python Gensim字典

Question

这是我的输入（样本*）

data = ["['human', 'interface', 'computer']",
 "['survey', 'user', 'computer', 'system', 'response', 'time']",
 "['eps', 'user', 'interface', 'system']",
 "['system', 'human', 'system', 'eps']",
 "['user', 'response', 'time']",
 "['trees']"]

而且我已经尝试实现

字典= corpora.Dictionary（文本数据）

但这是我得到的错误，

TypeError：doc2bow期望输入的是Unicode标记数组，而不是单个字符串

[如果您知道为什么不起作用，请帮助

Answer 1

此错误意味着输入到doc2bow中的每个“句子”应为字符串数组（“令牌”），而您将每个“句子”作为字符串提供：

# Your input sentences:
data = [
    "['human', 'interface', 'computer']",
    "['survey', 'user', 'computer', 'system', 'response', 'time']",
    "['eps', 'user', 'interface', 'system']",
    "['system', 'human', 'system', 'eps']",
    "['user', 'response', 'time']",
    "['trees']"]

# Expected input sentences:
data = [
    ['human', 'interface', 'computer'],
    ['survey', 'user', 'computer', 'system', 'response', 'time'],
    ['eps', 'user', 'interface', 'system'],
    ['system', 'human', 'system', 'eps'],
    ['user', 'response', 'time'],
    ['trees']]

Python Gensim字典

问题描述投票：0回答：1

1个回答

最新问题

Python Gensim字典

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1