sparklyr是Apache Spark的另一个R接口
在sparklyr中使用n_distinct根据条件计算不同值的问题
我在尝试使用 Sparklyr 根据条件计算 Spark DataFrame 列中不同值的数量时遇到问题。这是我正在使用的代码: 图书馆(sparklyr) 图书馆(d...
有没有办法在 Spark 本地模式下保存表并在重新连接后检索?
我正在使用带有本地 Spark (2.3.0) 的 Sparklyr。我可以使用spark_write_table保存一个表,如下所示 图书馆(sparklyr) <- spark_connect(master = "local", version = "2.3.0") sdf_copy_to(sc, i...
我尝试使用spark_read_parquet从“表”中读取列的子集, 温度 <- spark_read_parquet(sc, name='mytable',columns=c("Col1","Col2"), path="/my/p...
问题 我想使用 dplyr 创建新的空列,基于包含新变量名称的向量。例如,我想创建的列仅包含“0”。是
sparklyr 如何将 '.option("overwriteSchema", "true")' 添加到 databricks 上的 saveAsTable()
我正在databricks中运行以下代码以使用sparklyr保存表格 图书馆(sparklyr) 图书馆(dplyr) <- sparklyr::spark_connect(method = "databricks") dat <- sparklyr::
在 Sparklyr 中指定 col 类型 (spark_read_csv)
我正在使用 SpraklyR 将 csv 读入 Spark 模式 <- structType(structField("TransTime", "array", TRUE), structField("TransDay", "日期", TRUE)) 火花_重新...
Sparklyr:从 S3 读取多个 Parquet 文件无限期运行
我正在使用 Sparklyr 从 S3 存储桶读取 Parquet 文件,在尝试读取多个文件时遇到问题。读取特定文件工作正常,但是当尝试读取所有文件时...
我目前正在尝试从远程 RStudio 服务器连接到数据块。 使用 python 包 databricks-connect 和 Sparklyr 我能够从
Spark regexp_extract() 失败 - 正则表达式组计数为 0,但指定的组索引为 1
我想提取字符串的最后一部分(在最后一个正斜杠之后)。 当我使用以下代码时,它失败并出现错误: 图书馆(sparklyr) 图书馆(tidyverse) <- spark_connect(
我有 83GB 的 CSV 形式的数据存储在 AWS S3 中。通常我会在 AWS EMR 中使用 R (sparklyr) 中的 Spark 实现来处理授予足够内存的作业。 但是,我不能
这是我的代码。我在数据块中运行它。 图书馆(火花) 图书馆(dplyr) 图书馆(箭头) 科学<- spark_connect(method = "databricks") tbl_change_db(sc, "prod") trip_ids <-
这是我的代码。我在数据块中运行它。 图书馆(火花) 图书馆(dplyr) 图书馆(箭头) 科学<- spark_connect(method = "databricks") tbl_change_db(sc, "prod") trip_ids<-
我在与 spark_connect(master = "local") 建立连接时遇到问题,它有这个错误: 文件错误(con,“r”):无法打开连接 另外:警告信息...
sparklyr- JAVA_HOME 已设置但未指向有效版本
我正在尝试使用 sparklyr 分析 R 中的大型数据集。在尝试使用 spark_connect 建立 Spark 连接时,我收到以下错误: get_java 错误(throws = TRUE):
如何在SparklyR中改变默认的Spark_home和Java_home?(R Mac OS)
我把Spark安装在我的home目录下的一个文件夹里,并把它添加到我的.bash_profile里。在终端,我可以在源码~.bash_profile后运行pyspark或spark-shell。但是对于Sparklyr来说, ...
用dbgetQuery查询CASE WHEN的SQL查询不工作[关闭] 。
我有一个问题,我在R中测试了CASE WHEN SQL查询,但我得到了一个错误。请你,提出一个解决方案好吗?下面是重现的代码: library(sparklyr) library(gapminder) spark_conn。
我有一个数据框,其中包含列id,price1,price2,price3,prob1,prob2,prob3,我想将宽格式和价格,prob列转换为长格式库(dplyr)库(data.table)a
我有一个数据框,其中包含列id,price1,price2,price3,prob1,prob2,prob3,我想将宽格式和价格,prob列转换为长格式库(dplyr)库(data.table)a
在使用R的卡夫卡主题消费流期间,是否有任何sparklyr参数返回额外的日志信息?
在设法与kafka建立连接后,当尝试使用某个主题时,什么也没有返回,我很好奇是否可以传递任何相关参数以获取关于正在发生的事情的更多日志。 ...