dask 相关问题

Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。

Dask DataFrame - 根据分隔符将多个字符串列同时拆分为多行

我有一个大型 Dask DataFrame,看起来像这样: 铬 销售点 ID 参考文献 丙氨酸转氨酶 结果 Ensebl_geneid Ensembl_蛋白质ID Ensebl_transcriptid ETC 1 10000 1-10000-A-C A C 康11,康12,康13 ...

回答 1 投票 0

fastparquet 和 pyarrow 之间的比较?

经过一番搜索,我未能找到 fastparquet 和 pyarrow 的彻底比较。 我找到了这篇博文(速度的基本比较)。 以及一个 github 讨论,声称文件创建...

回答 6 投票 0

将多个 csv.gz 文件读取到 dask 数据帧中

我有多个 .csv.gz 文件,我正在尝试将其读入 dask 数据帧,我能够使用以下代码实现此目的: file_paths = glob.glob(file_pattern) @延迟 def read_csv(文件路径):

回答 1 投票 0

Dask 与简单的顺序应用程序:将无限数据写入单个 NetCDF

我需要将所有无限制(目前已增长 1TB)数据导出到单个 NetCDF4 文件。 完整的 ETL 包括: 各种计算 然后将所有结果写入单个 NetCDF 文件

回答 1 投票 0

控制 Dask LocalCluster 打印到控制台

我确信有一个简单的解决方案,但我有一个 python 函数,它在运行时打印一些值,但是,我也想使用 dask 运行它,但我不想打印t 的输出...

回答 1 投票 0

groupy 上的 Dask Dataframe 模式?

我正在尝试在dask数据帧中的groupby聚合下提取一系列的“模式”。我可以找到模式的文档,但找不到如何在分组下使用它。 导入熊猫...

回答 1 投票 0

预期 URI 为字符串 to_sql()

我正在尝试将大型 dask 数据帧上传到 sql 服务器,但出现错误并且看不到连接字符串有任何问题。我可以使用此连接连接到数据库...

回答 2 投票 0

连根拔起并打扫

我正在尝试uproot的dask功能,即将分支加载到dask数组中。 不幸的是,我不明白为什么在尝试对这些执行计算时会发生事情

回答 1 投票 0

如果包含的 dask.distributed 任务失败,为什么完美任务不会失败?

我正在使用 DaskTaskRunner 使用 Prefect 运行工作流程,它创建并保存 dask.distibuted.LocalCluster 实例。 在完美的任务中,我使用 dask_ml.RandomSearchCV 并拟合它,这......

回答 1 投票 0

dask 的 read_parquet 读取加载模式时应过滤掉的文件

我遇到了一个问题,我正在保存具有稍微不同架构的不同镶木地板文件,但它们具有共享分区列。我创建了以下内容作为最小的可复制示例...

回答 2 投票 0

statsmodels 在其提供的任何机器学习模型中使用时是否与 Dask 数据框不兼容?

我正在尝试 statsmodels 将我的数据拟合到逻辑回归模型(Logit),但我拥有的数据框不是 pandas 数据框,而是 Dask 数据框。 这是我的示例数据集:smarket_1: 回应

回答 2 投票 0

Dask 对特定列上的数据进行分组和排序会返回空结果,因为块中的数据为空

我有一个数据集,其中包含 Id 以及句子中特定 Id 的开始和停止。这是一个庞大的数据集,约有 2.5 亿行。 现在我需要处理这些数据以将这些 Id 转换为序列...

回答 1 投票 0

如何在Databricks上使用Dask

我想在 Databricks 上使用 Dask。这应该是可能的(我不明白为什么不可以)。如果我导入它,会发生以下两种情况之一,要么我收到导入错误,但当我安装分布式来解决这个问题时

回答 3 投票 0

我可以从 HTTP(s) 八位字节流读取镶木地板吗?

某些后端端点以八位字节流的形式返回镶木地板文件。 在 Pandas 中我可以做这样的事情: 结果 = requests.get("https://..../file.parquet") df = pd.read_parquet(io.BytesIO(

回答 1 投票 0

比较列的 Dask 数据框条件不起作用

我正在尝试比较 dask 数据帧的列名称,然后更改列数据类型,但是我的条件永远不会成立: 列名=“名称” print(f"列名称:{column_na...

回答 1 投票 0

为什么对 python 模块变量的修改没有传播到新的并行进程?

我有一个我想要执行的令人尴尬的并行任务列表。目前,我正在将这些任务的配置作为模块导入。 示例单行配置.py: result_folder = "aF...

回答 1 投票 0

使用 .loc 从 Dask 访问值

对于我的一生,我不知道如何组合这两个数据框。我正在使用所有软件的最新版本,包括 Python、Pandas 和 Dask。 #pandasframe 有 10k 行和 3

回答 2 投票 0

如何从 JupyterLab 中删除/卸载 dask-labextension?

启动 JupyterLab 时,我从 dask-labextension 收到一条恼人的弹出消息: “达斯克服务器错误” 无法列出 Dask 集群:可能未安装/启用服务器扩展? ...

回答 2 投票 0

重新采样巨大的 Pandas Dataframe 会抛出 ArrayMemoryError

在工作中,我们有一台机器,它正在记录一些传感器值(例如温度、压力、速度等)。我有一个 csv 文件,其中包含这些值,大约有 6 到 700 万行和 13

回答 1 投票 0

dask read_csv 很快,但 dataframe 操作很慢

我正在尝试提高 read_csv() 的速度,然后使用 pandas 2 提高数据帧的速度。我今天尝试了 dask,read_csv() 确实非常快。但数据帧操作很慢。这是为什么?如何改进...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.