汇总熊猫数据框列

问题描述 投票:1回答:1

我有一个大数据框(约470万行),其中一列包含文档文本。我尝试在整个数据帧的特定列上运行Gensim摘要失败。

df['summary'] = df['variable_content'].apply(lambda x: summarize(x, word_count=200))

variable_content的每一行提取到一个变量中并运行摘要可以很好地工作,但速度慢且难看。我也收到错误:

ValueError: input must have more than one sentence

但找不到只有一个句子的行(大多数是数百/千)。谁能帮忙?

python pandas dataframe gensim
1个回答
0
投票

您有470万行,每个行都有成百上千个句子,您希望它能在有限的时间内工作吗?这就是我所谓的“乐观主义”。我建议循环遍历数据框,并以大约1000行的块的形式运行您的事物,在进行过程中保存工作,并在进行过程中打印出块的数量。一旦失败,您将大致了解失败的位置,并且您实际上会得到一些结果。

© www.soinside.com 2019 - 2024. All rights reserved.