SparkR是一个R包,它提供了一个轻量级的前端来使用来自R的Apache Spark。
我是SparkR新手。我正在尝试使用Qubole Notebook使用SparkR在数据集上编写查询。采取了几个过程,但没有得到输出。数据:Table_A ID名称月份年份1 ...
如何使用SparkR :: read.jdbc()或sparklyr :: spark_read_jdbc()来获取SQL查询而不是整个表的结果?
我通常在本地使用RODBC查询我的数据库。但是,我们公司最近已迁移到Azure Databricks,它本身不支持RODBC或其他odbc连接,但确实支持jdbc ...
我正在使用SparkR的read.jdbc函数从Databricks查询Azure-SQL数据库。我没有向数据库发送查询的问题,但是,我想将星期几设置为星期日...
如何将Azure Databricks中的RStudio连接到Delta Lake
是否有将Azure Databricks群集上的RStudio连接到Delta Lake / Delta表的方法? (读和写模式会很棒)。在群集上的RStudio中,我尝试设置到家庭的路径...
我正在尝试使用sparklyr或SparkR连接到数据块。现在,我正在尝试使用sparklyr。这就是我如何安装sparklyr install.packages(“ sparklyr”)sparklyr :: spark_install()#...
我如何将数据帧转换为镶木地板文件并上传到R中的Azure Blob存储?有工作示例吗?
这似乎适用于csv,但我需要上传一个Parquet文件库(AzureStor)bl_endp_key
我安装的火花(火花2.1.0彬hadoop2.7)局部成功。从运行终端火花成功通过下面的命令:$火花外壳采用星火的默认log4j的配置文件:组织/ ...
我最近开始使用SparkR。我正在使用Rstudio服务器。但是当我运行sql_tmp3时
在python中,这是我从Azure Blob访问CSV的方式storage_account_name =“ testname” storage_account_access_key =“ ...” file_location =“ wasb://[email protected] / ...] >
我正在使用Azure Databricks使用SparkR和gapplyCollect()部署一些通过多个worker并行化的R代码。项目概述我有10000多个类似的数据源,产生了很多......
无法在Databricks R Notebook中安装RGLPK
我在安装R包时遇到以下问题。上下文:我正在研究优化问题,我必须使用RGLPK包来实现线性编程所需的功能。这是 ...
如何在R中读取Parquet并将其转换为R DataFrame?
我想用R编程语言处理Apache Parquet文件(在我的例子中,在Spark中生成)。是否有R读卡器?或者正在进行一项工作?如果不是,那将是最...
我试图了解如何使用spark将R连接到redshift,我无法使用简单的RPostgres连接,因为该数据集很大并且需要分布式计算,到目前为止我能够阅读和...
我在Hive中有这样的视图:id sequencenumber appname 242539622 1 A 242539622 2 A 242539622 3 A 242539622 ...
我需要读取10GB固定宽度的文件到数据帧。如何在R中使用Spark?假设我的文本数据如下:text
我正在尝试聚合SparkR数据帧以获取两个摘要变量,我尝试使用的代码是:temp1_aggregate%groupBy(“Week”,“Store”,“Brand”,“Conversion_Factor”,“...
我有一个SparkR DataFrame,如下所示:#Create R data.frame custId
我在Hive中有以下数据:id sequence app time1 time2 first_d_seq last_d_seq 2456 1 a 10/11/2018 10:25:43 10/11/2018 10:25:47 5 6 ...
我有R - 3.2.1的最后一个版本。现在我想在R上安装SparkR。执行完毕后:> install.packages(“SparkR”)我回来了:将软件包安装到'/ home / user / R / x86_64-pc-linux-gnu -...