dask 相关问题

Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。

属性错误:使用 conda 安装 dask 后,模块“dask”没有属性“set_options”

我正在使用 annaconda,我刚刚使用下面的方法安装了 dask https://anaconda.org/conda-forge/dask conda install -c conda-forge dask 我可以使用 read_csv() 并且没有错误,但是,我收到了此错误。我是

回答 1 投票 0

dask 导入错误,数据框/客户端 - 版本与 pandas 冲突?

并非所有版本的 dask.dataframe 和 pandas 都兼容。这已经在这个问题中得到解决 我尝试了几种组合,但与更新的 dask 版本组合,...

回答 1 投票 0

将非常大的 csv 文件分割成较小的文件

Dask 是否适合并行读取大型 csv 文件并将其拆分为多个较小的文件?

回答 2 投票 0

dask:当convert-string = False时,read_json中的数据类型不匹配

当使用 dask 读取包含复杂字段的 JSON 行文件时,我无法获取正确的数据类型。 JSON-lines 文件看起来像这样 {“col1”:“一些文字”,“...

回答 1 投票 0

如何在Pandas merge_asof中设置容差范围?

我正在尝试使用 pandas merge_asof 和容差级别合并两个时间序列数据。 Pandas 文档很好地演示了如何使用公差,但我想知道是否可以使用 rang...

回答 1 投票 0

在带有列表元素的pandas表上使用dask中的map_partitions和power函数时出现问题

我使用Dask框架开发了以下Python代码: # 创建一个 Pandas 数据框 df = pd.DataFrame({ 'A': [[1], [2], [3], [4], [5]], “B”:[[6]、[7]、[8]、[9]、[10]] ...

回答 1 投票 0

Dask 将列存储数据高效索引为 dask 数组

我正在尝试找到一种有效的方法来索引数据集,该数据集按使用 Dask (Python) 加载的 zarr 数组中的列存储。我必须对其执行一些操作,其中索引所有列...

回答 1 投票 0

如何持久化加载了 dask.dataframe.from_delayed 的 dask 数据帧

我有一个以自定义格式存储的大型分片数据集,这将从 dask.dataframe.from_delayed 中受益匪浅 但是,当我尝试保留生成的数据帧时,我看到了奇怪的行为:...

回答 1 投票 0

如何在Python中使用exasol数据库中的大表进行统计分析?

我有一个包含 3600 万行的表,我需要运行不同的统计分析(例如假设检验、分布分析等)。 因为当我使用export_to_pandas时出现内存错误

回答 1 投票 0

Dask 数据框 - 包含 numpy 数组的列 - 转换为 parquet 错误

我有一个 dask 数据框,我正在尝试将其转换为镶木地板文件。该数据框的列是 numpy 数组,但列类型是“对象”。 当我尝试这样做时: 名称_函数 =

回答 1 投票 0

捕获任何错误或异常时关闭 dask 客户端和集群

我正在编写一个python函数来使用dask进行数据处理。如果出现任何错误或异常,我想自动关闭 dask 集群和客户端。所以我使用 with ... as: 语句。

回答 1 投票 0

Dask 数据框中的简单转换会产生意想不到的结果

我有一个看起来很简单的问题:在 Dask 数据框中,我需要为每组添加一列的累积最小值。我的数据框如下所示: 将 pandas 导入为 pd 将 numpy 导入为 np 进口达克。

回答 1 投票 0

如何指定dask用于临时文件的目录?

Dask 似乎写入 /tmp 文件夹。如何更改 dask 用于临时文件的文件夹?

回答 3 投票 0

Dask from_delayed() 导致内存使用率过高

我按照(https://docs.dask.org/en/stable/delayed-collections.html)的说明为 Dask DataFrame 创建自定义数据加载器,基本上是这样的: 将 dask.dataframe 导入为...

回答 1 投票 0

我使用 Dask 读取我的 7GB CSV,但现在出现错误

错误显示“NotImplementedError:dd.DataFrame.apply仅支持axis = 1尝试:df.apply(func,axis = 1)” 这是我的代码行: # 使用dask读取CSV文件 导入 dask.dataframe ...

回答 1 投票 0

如何使用 Dask 在 xarray 中并行化 `sel()` 操作?

我有一个名为 speed 的值数组,我通过在查找表 speed_to_power_lut 中查找最接近的值,将其映射到另一个相同形状的值数组(称为 power)。这个过程

回答 1 投票 0

从_pandas创建dask数据框时如何为列表列指定正确的数据类型?

当使用 from_pandas 方法创建 dask Dataframe 时,之前正确的 dtype 对象变成了 string[pyarrow]。 将 dask.dataframe 导入为 dd 将 pandas 导入为 pd df = pd.DataFrame( { ...

回答 1 投票 0

网络中的正则表达式字段匹配和替换-Python

我有一个大的 csv(+1000000 行),我需要对其进行正则表达式搜索和替换功能。简而言之,我需要获取两列并找到它们之间的匹配项;然后使用匹配的行来表示...

回答 1 投票 0

python计算大n的两个元组

我正在尝试计算从 0 开始到文件长度(62977)的元组中所有可能的对组合,因此我得到这个结果作为单个 DASK 系列\数据帧,没有重复: (0,...

回答 2 投票 0

compute() 命令不适用于 python 中的 dask 系列

我正在尝试计算大规模数据的成对比例,其中每一列都是一个单独的样本,如下所示(这是一个小例子): 0 1 2 0 34.04 56.55 ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.