我知道this question。但是请检查下面的代码(最小工作示例):
import dask.dataframe as dd
import pandas as pd
# intialise data of lists.
data = {'Name': ['Tom', 'nick', 'krish', 'jack'], 'Age': [20, 21, 19, 18]}
# Create DataFrame
df = pd.DataFrame(data)
dask_df = dd.from_pandas(df, npartitions=1)
categoric_df = dask_df.select_dtypes(include="category")
[当我尝试打印categoric_df
时,出现以下错误:
ValueError: No objects to concatenate
并且当我从PyCharm调试器检查categoric_df
时:
Unable to get repr for <class 'dask.dataframe.core.DataFrame'>
由于这些错误,我可以构建一个try / except块来检查数据框是否为空。但是我不想使用这种方法,因为不能保证它一直都在工作,而try / except会使代码变慢。当我尝试打印计算出的categoric_df
时,它看起来像这样:
>>>print(categoric_df.compute())
Empty DataFrame
Columns: []
Index: [0, 1, 2, 3]
总结:在这里,如果我选择不存在的类型并从中创建dask.DataFrame,则会得到一个dask.DataFrame
,如果使用len()
函数,乍一看似乎并不为空。
>>>print(len(categoric_df))
4
>>>print(len(categoric_df.compute())
4
>>>print(categoric_df.compute().empty)
True
是否可以不计算就检查categoric_df
是否为空? (我希望它保持懒惰的评估。)
UPDATE:
print(len(categoric_df.columns))
返回0
。这可用于确定数据帧是否为空。但是这个可行吗?我不确定。
看来您遇到了一个错误,即数据框无法正确打印。如果您想在https://github.com/dask/dask/issues/new处提交错误报告,则是报告此错误的正确位置。
这不应该影响您要执行的检查。查看.columns
以查看是否有任何列似乎是合理的。数据框仍然具有行这一事实仅意味着仍然存在索引。