有没有一种在 Pandas 数据框中保存 Spacy 文档的好方法

问题描述 投票:0回答:2

我正在解决这个问题,但想记录堆栈溢出,因为这不容易搜索。 (另外,希望有人能在我之前回答这个问题)。

df.loc[:,'corpus_spacy_doc'] = df['text_corpus'].apply(lambda cell: nlp(cell))

所以现在我可以对 corpus_spacy_doc 进行各种 nlp 操作,这很棒。但我希望有一种保存此数据框状态的好方法,因为 df.to_csv() 显然不起作用。一直想看看镶木地板是否可以做到这一点,但我认为不可能。

目前看来我最好的解决方案是使用 spacy 方法序列化文档列表(https://spacy.io/usage/ saving-loading)并稍后使用 pandas 数据帧加载。

总而言之,我现在想要一种Pythonic方式来做类似的事情

df.to_something(fname = fname)

还有其他人经历过这个或有一个好的答案吗?


python dataframe nlp spacy
2个回答
1
投票

所以这非常简单,似乎解决了我用常规 df.to_pickle()

所做的事情

0
投票

我不确定我是否理解这一段,可能我的解决方案是相同的:

目前看来我最好的解决方案是使用 spacy 方法序列化文档列表(https://spacy.io/usage/ saving-loading)并稍后使用 pandas 数据帧加载。

但如果没有,您可以修改文档类型以将数据帧保存到镶木地板(https://spacy.io/api/doc#to_bytes

df['corpus_spacy_doc'] = df['corpus_spacy_doc'].apply(lambda x: x.to_bytes())
df.to_parquet(path, engine="pyarrow")
© www.soinside.com 2019 - 2024. All rights reserved.