dask 相关问题

Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。

Dask(ipython)选择行数最小的行。

dask中的问题:数据集 "df_dat "有几列,其中一列:"target_id"。"target_id",如果一个 "target_id "的值有至少501行,那么我想把它分配到一个新的数据集 "X"(添加所有的...)。

回答 1 投票 0

Python和Dask - 读取和连接多个文件。

我有一些parquet文件,都来自同一个域,但结构上有一些差异。我需要把它们全部连起来。下面是这些文件的一些例子:文件1:A,B True,False False,...。

回答 1 投票 0

如何在Dask中重置连接数据框架的索引?

我是Dask新手,认为这将是一个简单的任务。我想从多个csv文件中加载数据,并将其合并到一个Dask数据框架中。在这个例子中,有5个csv文件,有10,000行。

回答 1 投票 0

如何在Dask分布式上运行SQLAlchemy查询?

我试图使用我设置的dask集群运行和并行化这个sqlalchemy查询,因为我没有足够的内存从我的本地计算机执行它。我的代码如下--我不确定... ...

回答 1 投票 0

计算Dask数据框架中特定值的所有出现次数。

我有一个dask数据框架,有数千列和行,如下所示: pprint(daskdf.head()) grid lat lon ... 2014-12-29 2014-12-30 2014-12-31 0 0 48.125 -124.625 ... 0 .......

回答 1 投票 0

将Snakemake和Dask一起使用有意义吗?

我有一个Snakemake工作流,我一直在用它来训练DL TensorFlow模型。在一个高层次上,有一些运行时间较长的作业(模型训练),可以并行运行。我想运行 ...

回答 1 投票 0

Dask Dataframe - 小型数据框架的许多任务分区。

我一直在使用Dask来处理大型数据框,并做像joinsfilters这样的事情。最终的结果是一个我知道有8行的数据框。然而,如果我的Dask数据框是f,我检查f的地方,我得到......。

回答 1 投票 1

计算整个Dask数据框架的方差。

我有一个dask数据框是这样的: pprint(daskdf.iloc[:,95:100].head()) 1980-04-02 1980-04-03 1980-04-04 1980-04-05 1980-04-06 0 3.459240 0.0 2.296430 5.771730 13.344725 1 ... ...

回答 1 投票 0

Python多处理抛出Killed。9

我试图使用多处理来加速一个函数,我将2000个形状(76,76)的数组平铺成3D数组,并应用一个缩放因子。当瓦片数量小于 ... 时,它工作得很好。

回答 1 投票 3

Dask数据帧在连接parquet文件时抛出内存。

我有1024个parquet文件,每个1mbin大小。我使用python dask将这1024个文件合并成一个文件,我有很大的磁盘空间,但内存有些什么限制。有没有什么有效的方法...

回答 1 投票 0

使用pandas和dask将不同模式的parquet文件合并。

我有一个parquet目录,大约有1000个文件,模式是不同的。我想把所有这些文件合并到一个最佳数量的文件与文件重新分区。我使用pandas与pyarrow ...

回答 1 投票 0

Dask apply_along_axis错误,与Numpy比较。

我试图使用apply_along_axis将一个函数应用到Dask数组中,虽然同样的函数在numpy数组上可以使用,但在Dask数组上却无法使用。下面是一个例子: import dask.array ...

回答 1 投票 2

如何使用分布式Dask与预训练的Keras模型做模型预测?

我正在加载我的预训练的keras模型,然后尝试使用dask并行化大量的输入数据?不幸的是,我遇到了一些问题,这些问题与我如何创建我的 ...

回答 1 投票 2

Python, Dask - 使用来自另一个模块的函数并映射到Dask Dataframe。

我试图使用map_partitions在dask数据框架上应用一堆函数。当函数在本地定义时,它可以工作,例如 #假设一个数据框架df1 def upper(x): return x.str.upper() ....

回答 1 投票 0

dask - 在一个超过RAM的大型数据帧上应用一个函数。

据认为,Dask框架能够处理超过RAM大小的数据集。然而,我无法成功地应用它来解决我的问题,这听起来像这样。我有...

回答 1 投票 0

使用dask为数据框架的一列应用json.load。

我有一个数据帧fulldb_accrep_united,是这样的:SparkID......。Period 0 913955 ... {"@PeriodName": "2000", "@DateBegin": "2000-01... 1 913955 ...

回答 1 投票 1

Kubernetes和Dask和调度器

我的代码看起来像这样 def myfunc(param): # 昂贵的东西,需要2-3小时 mylist = [...] client = Client(...) mgr = DeploymentMgr() # ... 设置有状态的设置 ... futures = client.map(...)

回答 1 投票 4

用dask合并大型数据集

我有两个数据集,一个是约45GB,它包含1年的日常交易,第二个是3.6GB,包含客户ID和细节。我想把这两个数据集合并到一个共同的 ...

回答 1 投票 1

如何从dask数组创建dask系列(dd.from_dask_array)

我在从dask数组创建dask系列时遇到了麻烦: import dask.array as da import dask.dataframe as dd _dict = {'doc_faturamento': ['546102424238','946102424238','777702424238'],'...

回答 1 投票 1

如何减少任务流中的留白?

我在Dask中使用分布式计算获得了不同数量工人的任务流。我可以观察到,随着工人数量的增加(从16到32再到64),任务流中的空 ...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.