sparklyr 相关问题

sparklyr是Apache Spark的另一个R接口

在Sparklyr中使用ml_fpgrowth选择支持和置信度值

[我正在尝试从这个Kaggle脚本中汲取一些灵感,在该脚本中,作者使用规则在R中执行了市场篮子分析。我对将它们传递给...的部分特别感兴趣。]

回答 1 投票 0

sparklyr spark_apply非常慢

sparklyr spark_apply非常慢/完全没有响应。签入spark UI时,正在执行的阶段在utils.scala:204处收集。它正在执行0/1(1个正在运行)任务。数据帧...

回答 1 投票 1

使用Sparklyr时未显示配置单元表

我正在尝试从RStudio网站复制本教程,当我将数据加载到Hive时,我可以在Hive命令行上运行show表或从航空公司选择count(*),我将获得正确的...

回答 1 投票 3

R从Sparklyr中的ALS实现中提取潜在因子

使用sparklyr文档中的ALS示例:library(sparklyr)sc

回答 1 投票 1

Sparklyr未连接到Databricks

我正在尝试使用sparklyr或SparkR连接到数据块。现在,我正在尝试使用sparklyr。这就是我如何安装sparklyr install.packages(“ sparklyr”)sparklyr :: spark_install()#...

回答 1 投票 1

EMA函数在R数据帧上有效,但在spark数据帧上无效-Sparklyr

我对R和Spark还是陌生的。我正在编写一个函数来计算一组数据的指数移动平均值。我正在使用sparklyr程序包来处理Databricks Spark ...

回答 1 投票 1

如何在R中的大型数据集(15GB)上运行监督的ML模型?

我有一个数据集(15 GB):7200万条记录和26个功能。我想比较7个监督的ML模型(分类问题):SVM,随机森林,决策树,朴素贝叶斯,ANN,KNN和...

回答 1 投票 0

使用sparklyr返回逻辑计划

我们正在尝试获取Spark为给定查询生成的逻辑计划(不要与物理计划相混淆)。根据此处的Spark文档,您应该可以使用...

回答 1 投票 0

如何在filter()中使用sparklyr / dplyr n_distinct()在Azure数据块的spark数据框中使用条件过滤器数据

我在Azure数据块中有一个很大的数据集作为Spark数据框,并使用R代码来分析数据。我正在将在本地桌面RStudio中工作的R代码转换为Databricks R代码。我正在尝试...

回答 1 投票 0

Sparklyr中的高斯混合模型聚类

我正在尝试在sparklyr中使用高斯混合模型对数据进行聚类:ml_gaussian_mixture(formula =〜var1 + var2 + var3 + var4 + var5,k = 5)但是,调用此函数不会返回度量...

回答 1 投票 0

spark_apply无法运行程序“ Rscript”:在目录“ C:\ Users \用户名\ AppData \ Local \ spark \ spark-2.3.3-bin-hadoop2.7 \ tmp \ local \ spark-中。 \ userFiles

按照《用R掌握Apache Spark的书》中有关spark_apply的第一条说明,在Windows下的本地群集上并使用RGui,启动:install.packages(“ sparklyr”)install.packages(“ ...

回答 1 投票 0

Hive sql查询不返回任何结果+ Sparklyr中的等效项

[数据看起来像:ARTICLE_ID,ORDER_ID,ARTICLE_TIME 2567、1112、2019-01-16 20:40:00.0 2670、1117、2019-01-16 21:40:00.0 2569、1112、2019-01-16 20: 45:00.0假设我们有很多订单,每个订单...

回答 1 投票 1

将大RDS文件写入sparklyr数据帧-数据块

我正在尝试将数据块中加载的R数据帧转换为Sparklyr数据帧,但是我认为通常使用的copy_to函数无法处理文件大小。我需要转换的文件...

回答 1 投票 1

将csv文件加载到Rstudio中的Spark DataFrame中时发生错误

以下代码在Rstudio中将csv文件读入Spark DataFrame时出错,无法解决。

回答 1 投票 0

Databricks上的Sparklyr-在具有许多NaN值的sparklyr数据帧上,按行平均取多列

我正在尝试为Sparklyr数据框创建最小值,最大值和均值列。我只想在计算中按行使用该大型数据框中的5列。列中有许多NaN值,...

回答 1 投票 1

使用Sparklyr中的字典/列表中的键获取值

我有一个大数据集,数据嵌套为具有键和值的列表。因此,我宁愿不收集()数据,而只提取相关数据,然后将其pull()到R。但是,我似乎......>

回答 1 投票 0

将sparklyr tbl用于环境并相应地分配数据吗?

我是新手,让我们假设我在数据库中有如下“连接”:a

回答 1 投票 0

Sparklyr分割字符串(字符串)

试图sparklyr分割字符串,然后用它来连接/过滤我试图令牌化的字符串,然后将其分离到新列的建议的方法。这里是一个重复的例子(注...

回答 1 投票 1

如何R中使用sparklyr阅读S3文件夹/桶的所有文件?

我曾尝试下面的代码和它的组合,以读取在S3文件夹中提供的所有文件,但似乎没有奏效..敏感信息/代码从下面的脚本文件删除。那里 ...

回答 1 投票 2

sparklyr - 包括在Apache星火加入空值

这个问题包括在Apache星火加入有斯卡拉,PySpark和SparkR答案,但不为sparklyr空值。我一直无法弄清楚如何在sparklyr治疗无效已经INNER_JOIN ...

回答 1 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.