我有一个大数据框(约470万行),其中一列包含文档文本。我尝试在整个数据帧的特定列上运行Gensim摘要失败。
df['summary'] = df['variable_content'].apply(lambda x: summarize(x, word_count=200))
将variable_content
的每一行提取到一个变量中并运行摘要可以很好地工作,但速度慢且难看。我也收到错误:
ValueError: input must have more than one sentence
但找不到只有一个句子的行(大多数是数百/千)。谁能帮忙?
您有470万行,每个行都有成百上千个句子,您希望它能在有限的时间内工作吗?这就是我所谓的“乐观主义”。我建议循环遍历数据框,并以大约1000行的块的形式运行您的事物,在进行过程中保存工作,并在进行过程中打印出块的数量。一旦失败,您将大致了解失败的位置,并且您实际上会得到一些结果。