我正在使用Azure Databricks使用SparkR和gapplyCollect()
部署一些通过几个工作线程并行化的R代码。
SparkDataframe
groupBy()
基于我的数据源列的SparkDataframe
(数据由数据源列均匀分布)gapplyCollect()
结果上使用GroupedData
,用于在每个数据分区上应用我的R函数。
每次执行的结果都是一个小的R DataFrame
,有几行(dim ==(5,5))。
所有结果都通过gapplyCollect()
执行加入,生成一个小的R DataFrame
(<100k数字行),整合所有结果。在我的开发环境中,我正在进行一些实验,并行分析250个数据源,我正在使用4个小工作者(VM类型:Standard_F4s)。
gapplyCollect()
正在向工作人员发送我的R函数,但是......是否可以自定义每个工作人员要执行的最大活动任务数?默认情况下,我看到Databricks允许每个工作5个活动任务。
spark-submit
适合这项任务吗?我从未使用过spark-submit
,但我没有找到在Azure Databricks上使用它的好文档。
spark-submit
功能来更改--executor-cores
选项吗?forecast
CRAN库,因为Azure Databricks不允许我在使用spark-submit
时在GUI中定义库?