Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。
我想使用一个用Apache Spark 2.0.0开发的应用程序(这里是GitHub repo),但我只在我的iMac上安装了Spark 2.3.1(它似乎是自制软件支持的唯一一个...
Scala - 为什么函数返回Unit而不是RDD? [重复]
当我实现该功能时,我希望它返回一个RDD。并可能稍后将其收集到List。但为什么它会返回Unit呢?我应该在实施中做些什么来改变它...
我试图在Windows机器上运行SparkR。我在R Studio中运行了以下命令:库(SparkR,lib.loc = c(file.path(Sys.getenv(“SPARK_HOME”),“R”,“lib”)))这次运行成功。我是 ...
Apache Spark错误使用hadoop将数据卸载到AWS S3
我正在使用Apache Spark v2.3.1并尝试在处理之后将数据卸载到AWS S3。像这样:data.write()。parquet(“s3a://”+ bucketName +“/”+ location);配置似乎是......
我正在处理一个文本文件,并将转换后的行从Spark应用程序写入弹性搜索,如下所示input.write.format(“org.elasticsearch.spark.sql”).mode(SaveMode.Append)....
这是我的代码:public static SparkSession getTestSparkSession(String name){SparkConf conf = new SparkConf()。set(“spark.master”,“local”)。set(“spark.ui.port”,“8040”).. 。
Sparklyr:如何将列表列分解为Spark表中自己的列?
我的问题与此处的问题类似,但我在实现答案时遇到问题,我无法在该帖子中发表评论。所以,我有一个包含嵌套数据的大型CSV文件,...
Spark&Scala:saveAsTextFile()异常
我是Spark&Scala的新手,在调用saveAsTextFile()后我得到了异常。希望有人可以帮忙...这是我的input.txt:Hello World,我是程序员Hello World,我是程序员这是......
在Hortonworks集群上通过Jupyter笔记本使用Pyspark 1.6.2处理以下步骤时,我们遇到了一个奇怪的情况:从pyspark数据框中的ORC表读取数据透视此表...
我有一个spark DataFrame,它由一个用count聚合的列分组:df.groupBy('a')。agg(count(“a”))。show + --------- + --- ------------- + | a | count(a)| + --------- + -------------...
我有一个火花程序,涉及大型Hive表的连接操作(数百万行,数百列)。在这些连接期间使用的内存非常高。我想了解......
我有一个像“_row”的记录\ n“ 日期时间:2018.06.30 ^名称:ABC ^ Se:4 ^机器:XXXXXXX ^ InnerTrace:^ AdditionalInfo:^ 我想在每个之前删除所有内容......
我使用saveAsTextFile方法来保存RDD,但它不在文件中,而是有许多部分文件如下图所示。所以,我的问题是如何将这些文件重新加载到一个RDD中。
在Spark中对DataFrame进行排序时,钩子下会发生什么?
在Spark中对DataFrame进行排序时,钩子下会发生什么?例如,df = spark.read.format('csv')。option('foo')df.sort(i)我知道当你向DataFrame读取数据时会发生什么,但我...
如何将shell脚本中定义的变量用于Scala文件? [重复]
我有一个脚本文件,我在其中定义一些日期变量,在同一个文件中,我使用spark-shell命令调用Scala代码。 shell文件中定义的变量用作...
假设我有一个拥有1个主节点,3个核心节点和5个任务节点的集群。如果我在YARN集群模式下运行spark作业,驱动程序将在主节点上运行(主节点也可以运行执行程序吗?),并且......
我在使用Spark 2.3.1和PySpark时遇到了麻烦。 Firstable我试图做很多不同的操作,如连接和列选择,最后收集它或将其保存到csv文件但是......
Spark REST API,在Windows上提交应用程序NullPointerException
我使用Spark 2.3.1将我的PC用作Spark服务器,同时使用Spark Worker。起初,我使用了我的Ubuntu 16.04 LTS。一切正常,我试图运行SparkPi示例(使用...
我目前正在做的事情如下:val topic =“mytopic”val zkhosts =“localhost”val zkports =“2181”在我的代码中设置然后将其发送到kafkastream函数有效,但我想......
无法将Spark数据框发送到Kafka(java.lang.ClassNotFoundException:无法找到数据源:kafka。)
我在使用Spark数据框向Kafka推送数据时遇到了问题。让我通过示例示例详细解释我的场景。我想加载数据以激发并将spark输出发送到kafka。一世 ...