sparklyr是Apache Spark的另一个R接口
在Sparklyr中使用ml_fpgrowth选择支持和置信度值
[我正在尝试从这个Kaggle脚本中汲取一些灵感,在该脚本中,作者使用规则在R中执行了市场篮子分析。我对将它们传递给...的部分特别感兴趣。]
sparklyr spark_apply非常慢/完全没有响应。签入spark UI时,正在执行的阶段在utils.scala:204处收集。它正在执行0/1(1个正在运行)任务。数据帧...
我正在尝试从RStudio网站复制本教程,当我将数据加载到Hive时,我可以在Hive命令行上运行show表或从航空公司选择count(*),我将获得正确的...
使用sparklyr文档中的ALS示例:library(sparklyr)sc
我正在尝试使用sparklyr或SparkR连接到数据块。现在,我正在尝试使用sparklyr。这就是我如何安装sparklyr install.packages(“ sparklyr”)sparklyr :: spark_install()#...
EMA函数在R数据帧上有效,但在spark数据帧上无效-Sparklyr
我对R和Spark还是陌生的。我正在编写一个函数来计算一组数据的指数移动平均值。我正在使用sparklyr程序包来处理Databricks Spark ...
我有一个数据集(15 GB):7200万条记录和26个功能。我想比较7个监督的ML模型(分类问题):SVM,随机森林,决策树,朴素贝叶斯,ANN,KNN和...
我们正在尝试获取Spark为给定查询生成的逻辑计划(不要与物理计划相混淆)。根据此处的Spark文档,您应该可以使用...
如何在filter()中使用sparklyr / dplyr n_distinct()在Azure数据块的spark数据框中使用条件过滤器数据
我在Azure数据块中有一个很大的数据集作为Spark数据框,并使用R代码来分析数据。我正在将在本地桌面RStudio中工作的R代码转换为Databricks R代码。我正在尝试...
我正在尝试在sparklyr中使用高斯混合模型对数据进行聚类:ml_gaussian_mixture(formula =〜var1 + var2 + var3 + var4 + var5,k = 5)但是,调用此函数不会返回度量...
按照《用R掌握Apache Spark的书》中有关spark_apply的第一条说明,在Windows下的本地群集上并使用RGui,启动:install.packages(“ sparklyr”)install.packages(“ ...
Hive sql查询不返回任何结果+ Sparklyr中的等效项
[数据看起来像:ARTICLE_ID,ORDER_ID,ARTICLE_TIME 2567、1112、2019-01-16 20:40:00.0 2670、1117、2019-01-16 21:40:00.0 2569、1112、2019-01-16 20: 45:00.0假设我们有很多订单,每个订单...
我正在尝试将数据块中加载的R数据帧转换为Sparklyr数据帧,但是我认为通常使用的copy_to函数无法处理文件大小。我需要转换的文件...
将csv文件加载到Rstudio中的Spark DataFrame中时发生错误
以下代码在Rstudio中将csv文件读入Spark DataFrame时出错,无法解决。
Databricks上的Sparklyr-在具有许多NaN值的sparklyr数据帧上,按行平均取多列
我正在尝试为Sparklyr数据框创建最小值,最大值和均值列。我只想在计算中按行使用该大型数据框中的5列。列中有许多NaN值,...
我有一个大数据集,数据嵌套为具有键和值的列表。因此,我宁愿不收集()数据,而只提取相关数据,然后将其pull()到R。但是,我似乎......>
试图sparklyr分割字符串,然后用它来连接/过滤我试图令牌化的字符串,然后将其分离到新列的建议的方法。这里是一个重复的例子(注...
我曾尝试下面的代码和它的组合,以读取在S3文件夹中提供的所有文件,但似乎没有奏效..敏感信息/代码从下面的脚本文件删除。那里 ...
这个问题包括在Apache星火加入有斯卡拉,PySpark和SparkR答案,但不为sparklyr空值。我一直无法弄清楚如何在sparklyr治疗无效已经INNER_JOIN ...