dask 相关问题

Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。

使用dask.dataframe.read_csv时出现unicode错误

我遇到了错误 UnicodeDecodeError: 'utf-8' 编解码器无法解码位置 0 中的字节 0xac: 无效的起始字节 2023-09-19 13:04:11,361 - distribution.core - 错误 - 异常处理...

回答 1 投票 0

我无法在 AWS EMR 上运行 dask 纱线集群

我想使用 YarnCluster 在 EMR 上运行 dask。 我使用了下面的引导脚本,但我已经在 SSH 控制台中运行了这些指令。 #!/bin/bash HELP="用法:bootstrap-dask [选项] AWS EMR 示例

回答 1 投票 0

如何在两个不同的Python脚本和版本之间共享大型数据帧?

我想在不同环境中运行的多个Python脚本之间共享数据。 我的数据以 Pandas Dataframes(和 dask dataframes)的形式出现。通常,数据帧包含浮点数、整数、stri...

回答 1 投票 0

Dask 分布式 - 由工作方法共享的有状态全局参数

我正在使用 Dask 设置集群。现在我正在本地主机上设置调度程序和工作人员。 集群 = SSHCluster(["localhost", "localhost"],

回答 1 投票 0

将 tif 写入数据立方体

我有一个 .tif 文件的文件夹,我想将它们合并到数据立方体中。我所说的 datacube 是指 netcdf 文件或 zarr 文件。目标是如果我在 Python 中打开这个数据立方体,我可以访问 3D 数组

回答 1 投票 0

集群上数据的Dask和持久化

我正在开发一个使用历史数据和传入数据进行分析的项目。我想了解如何管理更新 dask 上的传入数据,而不必分派所有

回答 1 投票 0

如何惰性地 GroupShuffleSplit parquet 数据框?

我有一个镶木地板数据集,如下所示(我使用的是极坐标,但任何数据框库都可以): df = pl.DataFrame( { “匹配 ID”:[ 1, 1, 1, 2, 2, ...

回答 1 投票 0

在处理两个不同大小的输入数组时,如何有效利用 Dask `map_overlap` 函数?

我正在使用两个变量,可以将其视为矩阵 - 维度为 (100, 100) 的“a”和维度为 (200, 200) 的“b”。我的目标是执行涉及“a”和“...”的计算

回答 1 投票 0

`ValueError:无法使用 Dask DataFrame 从重复轴重新索引

我一直在尝试调整我的代码以利用Dask来利用多台机器进行处理。虽然初始数据加载并不耗时,但后续处理大约需要 12 个小时......

回答 1 投票 0

dask 持久行为不一致

如果我注释掉这一行,我发现 dask 的奇怪行为仍然存在 # client = Client(memory_limit='20GB',n_workers=1) # 连接到分布式集群并覆盖默认值 并执行

回答 1 投票 0

解压元组列表的 dask 延迟对象

我有一个返回两个元素的元组的函数。使用 pool starmap 调用该函数来生成元组列表,并将其解压缩为两个列表。 def 函数(): #...一些操作 重新...

回答 2 投票 0

具有多个参数的 Dask 映射方法

我想将 Client.map 方法应用于使用多个参数的函数,就像多处理的 Pool.starmap 方法一样。这是一个例子 从 contextlib 导入 contextmanager 从...

回答 1 投票 0

Pandas 与 Dask 排序列以及字符串和数字的索引

鉴于: 小样本熊猫数据框: 将 pandas 导入为 pd 将 numpy 导入为 np 将 dask.dataframe 导入为 dd df = pd.DataFrame({"usr": ["ip1", "ip7", "ip12", &q...

回答 1 投票 0

如何使用dask任何python库快速读取xlsb文件

我想用python读取大的xlsb文件。但是,我根本找不到任何解决方案。我尝试了Dask,但它没有读取它或excel文件的功能。而且,我使用了“delayed&q...”这个功能

回答 1 投票 0

Dask Dataframes 不能容忍其中的 NA 值吗?出现 ValueError,无法转换非有限值

我仍在学习 Dask 来使用数据库: 我有一个 Dask 数据帧,可以从本地 sql DB 成功复制,如下所示: ddf_authorized = dd.read_sql_table("

回答 2 投票 0

为什么polars被称为最快的dataframe库,dask搭配cudf不是更强大吗?

大多数基准测试都将 dask 和 cuDF 隔离开来,但我可以一起使用它们。带有 cuDF 的 Dask 不是比 Polars 更快吗?! 此外,Polars 仅在数据适合内存时才运行,但这不是......

回答 2 投票 0

如何使用dask.map_blocks和scipy的缩放功能重新缩放dask数组并将结果保存为zarr或hdf5?

问题: 我有一个代表张量的大型 Dask 数组,我想使用 SciPy 包中的缩放函数重新缩放它。重新缩放后,我想将生成的 Dask 数组保存到磁盘

回答 1 投票 0

如何在Dask DataFrame中读取和存储向量(List[float])?

我试图在 Dask DataFrame 中拥有来自向量 np.array 的“向量”列。 使用 Pandas DataFrame 代码将如下所示: 将 pandas 导入为 pd 将 numpy 导入为 np 矢量...

回答 1 投票 0

使用编码 UTF8 将列转换为字节时出错

将 dask 数据帧写入 S3 时出现以下错误。不明白为什么。有谁知道如何修复。 dd.from_pandas(pred, npartitions=npart).to_parquet(out_path) 错误是 错误..错误

回答 1 投票 0

在共享索引上合并两个 DataFrame 时出现 Dask ValueError

我在尝试在共享索引上合并两个 Dask DataFrame 时遇到了 ValueError 。如果我不初始化集群和客户端,这将起作用。 在 Dask 2023.6.0 中重现的步骤: 进口...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.