Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。
dask中的问题:数据集 "df_dat "有几列,其中一列:"target_id"。"target_id",如果一个 "target_id "的值有至少501行,那么我想把它分配到一个新的数据集 "X"(添加所有的...)。
我有一些parquet文件,都来自同一个域,但结构上有一些差异。我需要把它们全部连起来。下面是这些文件的一些例子:文件1:A,B True,False False,...。
我是Dask新手,认为这将是一个简单的任务。我想从多个csv文件中加载数据,并将其合并到一个Dask数据框架中。在这个例子中,有5个csv文件,有10,000行。
我试图使用我设置的dask集群运行和并行化这个sqlalchemy查询,因为我没有足够的内存从我的本地计算机执行它。我的代码如下--我不确定... ...
我有一个dask数据框架,有数千列和行,如下所示: pprint(daskdf.head()) grid lat lon ... 2014-12-29 2014-12-30 2014-12-31 0 0 48.125 -124.625 ... 0 .......
我有一个Snakemake工作流,我一直在用它来训练DL TensorFlow模型。在一个高层次上,有一些运行时间较长的作业(模型训练),可以并行运行。我想运行 ...
Dask Dataframe - 小型数据框架的许多任务分区。
我一直在使用Dask来处理大型数据框,并做像joinsfilters这样的事情。最终的结果是一个我知道有8行的数据框。然而,如果我的Dask数据框是f,我检查f的地方,我得到......。
我有一个dask数据框是这样的: pprint(daskdf.iloc[:,95:100].head()) 1980-04-02 1980-04-03 1980-04-04 1980-04-05 1980-04-06 0 3.459240 0.0 2.296430 5.771730 13.344725 1 ... ...
我试图使用多处理来加速一个函数,我将2000个形状(76,76)的数组平铺成3D数组,并应用一个缩放因子。当瓦片数量小于 ... 时,它工作得很好。
我有1024个parquet文件,每个1mbin大小。我使用python dask将这1024个文件合并成一个文件,我有很大的磁盘空间,但内存有些什么限制。有没有什么有效的方法...
使用pandas和dask将不同模式的parquet文件合并。
我有一个parquet目录,大约有1000个文件,模式是不同的。我想把所有这些文件合并到一个最佳数量的文件与文件重新分区。我使用pandas与pyarrow ...
Dask apply_along_axis错误,与Numpy比较。
我试图使用apply_along_axis将一个函数应用到Dask数组中,虽然同样的函数在numpy数组上可以使用,但在Dask数组上却无法使用。下面是一个例子: import dask.array ...
我正在加载我的预训练的keras模型,然后尝试使用dask并行化大量的输入数据?不幸的是,我遇到了一些问题,这些问题与我如何创建我的 ...
Python, Dask - 使用来自另一个模块的函数并映射到Dask Dataframe。
我试图使用map_partitions在dask数据框架上应用一堆函数。当函数在本地定义时,它可以工作,例如 #假设一个数据框架df1 def upper(x): return x.str.upper() ....
据认为,Dask框架能够处理超过RAM大小的数据集。然而,我无法成功地应用它来解决我的问题,这听起来像这样。我有...
我有一个数据帧fulldb_accrep_united,是这样的:SparkID......。Period 0 913955 ... {"@PeriodName": "2000", "@DateBegin": "2000-01... 1 913955 ...
我的代码看起来像这样 def myfunc(param): # 昂贵的东西,需要2-3小时 mylist = [...] client = Client(...) mgr = DeploymentMgr() # ... 设置有状态的设置 ... futures = client.map(...)
我有两个数据集,一个是约45GB,它包含1年的日常交易,第二个是3.6GB,包含客户ID和细节。我想把这两个数据集合并到一个共同的 ...
如何从dask数组创建dask系列(dd.from_dask_array)
我在从dask数组创建dask系列时遇到了麻烦: import dask.array as da import dask.dataframe as dd _dict = {'doc_faturamento': ['546102424238','946102424238','777702424238'],'...
我在Dask中使用分布式计算获得了不同数量工人的任务流。我可以观察到,随着工人数量的增加(从16到32再到64),任务流中的空 ...