Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。
属性错误:使用 conda 安装 dask 后,模块“dask”没有属性“set_options”
我正在使用 annaconda,我刚刚使用下面的方法安装了 dask https://anaconda.org/conda-forge/dask conda install -c conda-forge dask 我可以使用 read_csv() 并且没有错误,但是,我收到了此错误。我是
dask 导入错误,数据框/客户端 - 版本与 pandas 冲突?
并非所有版本的 dask.dataframe 和 pandas 都兼容。这已经在这个问题中得到解决 我尝试了几种组合,但与更新的 dask 版本组合,...
dask:当convert-string = False时,read_json中的数据类型不匹配
当使用 dask 读取包含复杂字段的 JSON 行文件时,我无法获取正确的数据类型。 JSON-lines 文件看起来像这样 {“col1”:“一些文字”,“...
我正在尝试使用 pandas merge_asof 和容差级别合并两个时间序列数据。 Pandas 文档很好地演示了如何使用公差,但我想知道是否可以使用 rang...
在带有列表元素的pandas表上使用dask中的map_partitions和power函数时出现问题
我使用Dask框架开发了以下Python代码: # 创建一个 Pandas 数据框 df = pd.DataFrame({ 'A': [[1], [2], [3], [4], [5]], “B”:[[6]、[7]、[8]、[9]、[10]] ...
我正在尝试找到一种有效的方法来索引数据集,该数据集按使用 Dask (Python) 加载的 zarr 数组中的列存储。我必须对其执行一些操作,其中索引所有列...
如何持久化加载了 dask.dataframe.from_delayed 的 dask 数据帧
我有一个以自定义格式存储的大型分片数据集,这将从 dask.dataframe.from_delayed 中受益匪浅 但是,当我尝试保留生成的数据帧时,我看到了奇怪的行为:...
如何在Python中使用exasol数据库中的大表进行统计分析?
我有一个包含 3600 万行的表,我需要运行不同的统计分析(例如假设检验、分布分析等)。 因为当我使用export_to_pandas时出现内存错误
Dask 数据框 - 包含 numpy 数组的列 - 转换为 parquet 错误
我有一个 dask 数据框,我正在尝试将其转换为镶木地板文件。该数据框的列是 numpy 数组,但列类型是“对象”。 当我尝试这样做时: 名称_函数 =
我正在编写一个python函数来使用dask进行数据处理。如果出现任何错误或异常,我想自动关闭 dask 集群和客户端。所以我使用 with ... as: 语句。
我有一个看起来很简单的问题:在 Dask 数据框中,我需要为每组添加一列的累积最小值。我的数据框如下所示: 将 pandas 导入为 pd 将 numpy 导入为 np 进口达克。
我按照(https://docs.dask.org/en/stable/delayed-collections.html)的说明为 Dask DataFrame 创建自定义数据加载器,基本上是这样的: 将 dask.dataframe 导入为...
错误显示“NotImplementedError:dd.DataFrame.apply仅支持axis = 1尝试:df.apply(func,axis = 1)” 这是我的代码行: # 使用dask读取CSV文件 导入 dask.dataframe ...
如何使用 Dask 在 xarray 中并行化 `sel()` 操作?
我有一个名为 speed 的值数组,我通过在查找表 speed_to_power_lut 中查找最接近的值,将其映射到另一个相同形状的值数组(称为 power)。这个过程
从_pandas创建dask数据框时如何为列表列指定正确的数据类型?
当使用 from_pandas 方法创建 dask Dataframe 时,之前正确的 dtype 对象变成了 string[pyarrow]。 将 dask.dataframe 导入为 dd 将 pandas 导入为 pd df = pd.DataFrame( { ...
我有一个大的 csv(+1000000 行),我需要对其进行正则表达式搜索和替换功能。简而言之,我需要获取两列并找到它们之间的匹配项;然后使用匹配的行来表示...
我正在尝试计算从 0 开始到文件长度(62977)的元组中所有可能的对组合,因此我得到这个结果作为单个 DASK 系列\数据帧,没有重复: (0,...
compute() 命令不适用于 python 中的 dask 系列
我正在尝试计算大规模数据的成对比例,其中每一列都是一个单独的样本,如下所示(这是一个小例子): 0 1 2 0 34.04 56.55 ...