我在从一个dask数组创建一个dask系列时遇到了麻烦。
import dask.array as da
import dask.dataframe as dd
_dict = {'doc_faturamento': ['546102424238','946102424238','777702424238'],'data_vencimento':[20190307,20190310,20190311], 'data_pagamento': [20190227,20190324,22220202],'periodo_atraso': [-8,14, 74107], 'periodo_atraso': ['PA/PD', '8-14 días', 'INAD']}
_df = pd.DataFrame( data=_dict)
_df = dd.from_pandas(_df, npartitions=2)
_peri = da.where(_df['data_pagamento']=='2222-02-02','INAD',_df['periodo_atraso'])
_peri_df = dd.from_dask_array(_peri)
_df['periodo_atraso'] = _peri
即使用这个例子,我也得到了正确的结果。
_test = da.from_array(np.arange(100000, 190000), chunks=1000)
_test_df = dd.from_dask_array(_test)
感谢任何帮助!
看来你是在呼叫 da.where
在dask数据框架上。 我建议看一下 dd.DataFrame.where
或 dd.Series.where
而是