dask 相关问题

Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。


使用带有map_partitions DASK的pd.cut()的问题

我难以通过map_partitions函数将pd.cut应用于大型DataFrame。在熊猫中使用相同的垃圾箱和标签,结果是带有标签值的新列 。 _dict ...

回答 1 投票 0

如何在解析的csv块上应用多个条件以获取多个输出?

不太熟悉,不胜感激!基本上,我从540个csv文件中读取了csv文件(RAM之外),并且每次我读取csv时,我都会应用2个过滤条件来获取2个输出文件,尽管dask正在执行它的工作...

回答 1 投票 0

如何使用Dask对大文本文件进行排序?

我有一个比我的记忆大得多的文本文件。我想按字典顺序对该文件的行进行排序。我知道如何手动执行:分成适合内存的大块对大块进行排序...

回答 1 投票 0

通过Dask向PBS提交自定义工作脚本?

我有一个PBS作业脚本,其中包含一个将结果写入文件的可执行文件。 ###一些行PBS_O_EXEDIR =“ path / to / software” EXECUTABLE =“ executablefile” OUTFILE =“ out” ###复制应用程序目录...

回答 1 投票 0

concat是否在dask数据帧惰性操作中?

我正在使用dask read_parquet读取文件列表,并连接这些数据帧并写入某些文件。在串联过程中,串联时是否快将所有数据读入内存...

回答 1 投票 0

在Dask中,有一种方法可以处理依赖项,就像在multiprocessing.imap_unordered中一样?

我有一个简单的图形结构,它接受N个独立的任务,然后将它们聚合。我不在乎独立任务的结果以什么顺序聚合。有没有办法,我可以...

回答 1 投票 1

同时运行df.apply,dask和pd.get_dummies

我有多个分类列,这些分类列中有数百万个不同的值。因此,我正在使用dask和pd.get_dummies将这些分类列转换为位向量。 ...

回答 1 投票 0

黄昏:distributed.protocol.core-严重-无法序列化

从dask.distributed import客户端client = Client()... df = dd.read_csv('*。csv')版本:dask 2.15.0 py_0 dask-core 2.15.0 ...

回答 1 投票 0

dask-ssh在hpc上失败:没有可用的身份验证方法

[当我尝试运行命令:dask-ssh sn010 sn179时,我得到以下信息:Dask.distributed v2.12.0 Worker节点:0:sn010 1:sn179调度程序节点:sn010:8786 [dask-ssh]:SSH ...

回答 1 投票 0

Dask群集仅在远程dask-workers加入时才会使read_csv失败

我是数据科学/ python的新手,学习速度快,精通贸易,一心一意,我知道这是一个错误,但是可能有解决的办法,我将接受任何野心勃勃的想法。我实例化了一个...

回答 1 投票 0

下采样dask数据帧-可能分层

我有一个大的dask数据框,其中有一个因变量Y,可用于二进制概率分类。我想对此进行下采样(理想情况下应基于Y的先验分层)。 ...

回答 1 投票 1

dask:使用compute()引发错误'apply()得到了意外的关键字参数'how'?

黄昏2.15.0,熊猫1.0.3 unknown_dict = dict(map(lambda columnName:(columnName,'unknown'),columns_to_clean))my_dataframe = my_dataframe.fillna(unknown_dict)#在使用...进行计算之前没有问题...

回答 1 投票 0

在本地群集上运行dask时超时OSError

我正在尝试在具有配置的Power PC上运行以下代码:操作系统:Red Hat Enterprise Linux Server 7.6(Maipo)CPE OS名称:cpe:/ o:redhat:enterprise_linux:7.6:GA:server ...

回答 1 投票 0

Dask:从已提交的作业中访问已发布的数据集

#初始化导入时间从dask.pda导入熊猫作为pd导入numpy.distributed import客户端客户端= Client()#发布数据dataset_name ='my_dataset'df_my_dataset = pd.DataFrame(np.ones((2,3)), ...

回答 2 投票 0

VersionMismatchWarning:发现不匹配的版本-blosc

我无法在Windows上执行'pip install blosc'。我在Windows上开发并使用dask-docker在VM上运行我的工作人员和计划。谁有想法?好像dask真的想要所有的linux都...

回答 2 投票 0

Groupby和移动dask数据帧

我想使用dask 2.14扩展对熊猫数据框所做的一些操作。例如,我想对数据框的列进行平移:将dask.dataframe导入为dd data = dd.read_csv('...

回答 1 投票 1

在Dask数据帧中的多个列中查找中值

我有一个Dask数据框,其中包含三列,即宽度,高度和长度。我需要创建第四列,这是三列的中位数。我的常规熊猫df代码不起作用,因为中位数不是...

回答 1 投票 0

串联Dask数据帧抛出内存不足

我有1024个实木复合地板文件,每个1mbin大小。我正在使用python dask将这1024个文件合并为一个文件,并且我有很多磁盘空间,但是ram受到了一些限制。有没有有效的方法...

回答 1 投票 0

黄昏ml logistic回归会引发此错误:“ NotImplementedError:无法将拦截添加到具有未知块形状的数组中”

您好,我是黄昏Ml的新手,我一直在尝试使用dask ml训练logistic回归模型来预测推特情绪。我已经将pandas数据框转换为dask数据框。之后,我...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.