我正在尝试使用以下方式读取分区镶木地板文件:
df = pd.read_parquet(basepath_to_files)
但是,这会引发错误:
ArrowInvalid: Cannot yet unify dictionaries with nulls
。
从单个(未分区).parquet 文件读取完全相同的数据不会引发错误。
如何加载这个分区数据?
依赖默认设置可能不是最好的主意,特别是因为这些设置在相对较新的版本中已经发生了变化。如果您还没有的话,请务必查看 pandas docs。对 null 类型的引用太多,无法忽略:
可能首先要检查您的
pd.__version__
,看看您目前处于什么位置。然后,如果您高于 2.0,请添加参数,添加 dtype_backend = ‘pyarrow’
看起来是第一个要尝试的事情。