我的数据如下所示:
df = pd.DataFrame({'col': ['a', 'b', ''], })
df.to_parquet('df.parquet')
读取文件时,我想读取空字符串('')作为缺失值(pd.NA或类似值)。
原因是这是将其读取为 .csv 时的默认行为,我想保留相同的行为而不引入额外的处理步骤(即在读取文件后执行替换())
有 2 个包能够在 python 中编写 parquet。其中之一是快速镶木地板。使用它和 python 你可以做这样的事情。
from fastparquet import write
import pandas as pd
df = list(map(lambda x: x.replace("", pd.NA), df))
write(filepath, df)