sparklyr 相关问题

sparklyr是Apache Spark的另一个R接口

'data'必须是矢量类型,'NULL'是R-PCA和as.matrix

我正在用虹膜数据帧PCA找到最简单的例子,但我继续从PCA矩阵中得到相同的错误:iris_tbl ...

回答 1 投票 0

来自s3错误的sparklyr spark_read_parquet

当我从闪亮的上下文中读取s3上的镶木地板文件时,如下所示:{spark_read_parquet(sc,name =“parquet_test”,path =“s3a:// “)}它抛出一个错误:由以下原因引起:......

回答 1 投票 0

计算每行的单词数

我正在尝试使用sparklyr将R代码移动到spark中,我遇到了一些函数的麻烦,以便执行以下操作:-Count连续的单词总数:例如......

回答 1 投票 0

如何在本地模式下使用spark_read_jdbc

我正在尝试使用spark_read_jdbc从MS SQL数据库读取时进行本地开发。这需要连接到数据库。我有以下spark_connect。图书馆(sparklyr)#...

回答 1 投票 1

闪烁的流媒体加入状态

Spark提供了一些出色的流功能。最近https://spark.rstudio.com/guides/streaming/ R使用结构化流媒体通过sparklyR获得了流媒体功能。 HTTPS://spark.apache ....

回答 1 投票 0

如何避免/禁用.crc文件在sparklyr中编写csv文件?

我使用spark_write_csv函数将spark数据帧作为csv文件写入本地文件系统。在输出目录中,每个零件文件都有一个.crc文件。我正在寻找任何......

回答 1 投票 0

如何在sparklyr的dplyr实现返回的列表中循环显示不同的列结果?

鉴于spark studio这里提供的闪亮示例库(sparklyr)packageVersion(“sparklyr”)#'0.8.4'ssc

回答 1 投票 0

计算字符串中第一个,第二个和第三个字的字符数

我需要了解开发一个可以计算字符串中第二个和第三个字的字符数的代码。我得到了这个代码,但它只适用于第一个单词的字符数。 ...

回答 1 投票 0

将数据复制到Spark环境

我试图将我的数据复制到spark并在as.data.frame.default中获取以下错误错误(x,stringsAsFactors = FALSE,row.names = FALSE,:不能强制类“结构(”...

回答 1 投票 0

如何获取hdfs文件夹中的子文件夹列表?

假设我的parquets存储如下:hdfs://root/folder1/pqt1.pqt hdfs://root/folder2/pqt2.pqt hdfs://root/folder3/pqt3.pqt hdfs:// root / folder4 / part1 / pqt4part1.pqt hdfs:// root / folder4 / part2 / ...

回答 1 投票 0

在sparklyr中更改JVM时区

我拼命想在Sparklyr中改变我的JVM的时区(使用spark 2.1.0)。我到处都想要GMT。我正在设置:config $`driver.extraJavaOptions`

回答 1 投票 1

使用R中的SparklyR更改嵌套列名称

我已经提到了这里提到的所有链接:1)Link-1 2)Link-2 3)Link-3 4)Link-4以下R代码是使用Sparklyr Package编写的。它读取巨大的JSON文件并创建数据库......

回答 1 投票 0

YARN上的RSparkling Spark错误(java.lang.ClassNotFoundException:water.fvec.frame)

我正在尝试设置我的R环境以在YARN群集上运行h2o算法。 (由于安全原因无法访问互联网 - 在R服务器上运行)以下是我当前的环境设置:...

回答 1 投票 2

如何使用spark-env.sh文件设置SPARK_LOCAL_DIRS参数

我试图改变火花写临时文件的位置。我在网上找到的所有东西都说通过在spark-env.sh文件中设置SPARK_LOCAL_DIRS参数来设置它,但我不是......

回答 2 投票 5

如何从sparklyr中的字符串中删除'\'

我正在使用sparklyr,并且有一个带有包含单词的列字的spark数据帧,其中一些包含我要删除的特殊字符。我成功地使用了regepx_replace和\\\\ ...

回答 1 投票 1

SparkR:levenshtein来自2个Spark数据帧的2个变量之间的模糊字符串匹配

我有2个Spark数据帧库(SparkR); library(magrittr)df1

回答 1 投票 0

如何检查我的Spark Cluster是否有效?

我在Ubuntu 18.04上安装了带有两个节点的Spark 2.3.0:一个主节点(ip:172.16.10.20)和一个从节点(ip:172.16.10.30)。我可以检查一下这个Spark集群是否正常运行jps -lm | ...

回答 2 投票 0

通过重复调用内存中的数据帧来减速

假设我有40个连续(DoubleType)变量,我使用ft_quantile_discretizer将其变为四分位数。识别所有变量的四分位数非常快,因为函数...

回答 1 投票 9

转换数据帧时R H2O中的C堆栈使用错误

我在R中使用sparklyr和H2O来实现开发一些ML模型。在初始数据读取时出错。我使用spark_read_csv提取数据,使用sdf_partition设置分区然后定义...

回答 1 投票 0

sparklyr无法过滤单个值上`sd`的缺失值

将sd()应用于spark数据框中的单个值(通过R中的sparklyr包)会导致缺失值,基于它是缺失值而无法过滤掉。有人可以解释这个/ ...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.