我运行了一行代码来制作一个 Spark DataFrame。在运行以下命令之前,我安装了 SparkR 并使用了库 (SparkR):
spark_df <- as.DataFrame(data)
但是我收到以下错误消息
getSparkSession() 错误:SparkSession 未初始化
我需要做什么?
这适用于使用 R 笔记本的 Databricks。确保加载库。这将加载以线性回归而闻名的钻石数据集。
有关详细信息,请参阅文档。 https://docs.databricks.com/sparkr/overview.html
library(SparkR)
diamondsDF <- read.df("/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv", source = "csv", header="true", inferSchema = "true")
head(diamondsDF)
还有创建火花数据框的代码。
library(SparkR)
df <- createDataFrame(faithful)
# Displays the content of the DataFrame to stdout
head(df)
一定是你的环境
这是第二个代码块的输出。
这是第一段代码的输出。
另一种工作正常的语法。
您是否使用 R-Studio 而 spark 不是本地的?阅读有关如何连接的文档。 Databricks 会自动为您完成这项工作!