apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

Apache Spark 2.3.1和2.0.0的兼容性

我想使用一个用Apache Spark 2.0.0开发的应用程序(这里是GitHub repo),但我只在我的iMac上安装了Spark 2.3.1(它似乎是自制软件支持的唯一一个...

回答 1 投票 1

Scala - 为什么函数返回Unit而不是RDD? [重复]

当我实现该功能时,我希望它返回一个RDD。并可能稍后将其收集到List。但为什么它会返回Unit呢?我应该在实施中做些什么来改变它...

回答 1 投票 -1

SparkR:无法创建Spark会话

我试图在Windows机器上运行SparkR。我在R Studio中运行了以下命令:库(SparkR,lib.loc = c(file.path(Sys.getenv(“SPARK_HOME”),“R”,“lib”)))这次运行成功。我是 ...

回答 3 投票 1

Apache Spark错误使用hadoop将数据卸载到AWS S3

我正在使用Apache Spark v2.3.1并尝试在处理之后将数据卸载到AWS S3。像这样:data.write()。parquet(“s3a://”+ bucketName +“/”+ location);配置似乎是......

回答 1 投票 1

从spark写入elasticsearch非常慢

我正在处理一个文本文件,并将转换后的行从Spark应用程序写入弹性搜索,如下所示input.write.format(“org.elasticsearch.spark.sql”).mode(SaveMode.Append)....

回答 1 投票 1

为什么kryo注册不能在SparkSession中工作?

这是我的代码:public static SparkSession getTestSparkSession(String name){SparkConf conf = new SparkConf()。set(“spark.master”,“local”)。set(“spark.ui.port”,“8040”).. 。

回答 2 投票 1

Sparklyr:如何将列表列分解为Spark表中自己的列?

我的问题与此处的问题类似,但我在实现答案时遇到问题,我无法在该帖子中发表评论。所以,我有一个包含嵌套数据的大型CSV文件,...

回答 1 投票 2

Spark&Scala:saveAsTextFile()异常

我是Spark&Scala的新手,在调用saveAsTextFile()后我得到了异常。希望有人可以帮忙...这是我的input.txt:Hello World,我是程序员Hello World,我是程序员这是......

回答 2 投票 5

Pyspark在使用大量列保存数据框时遇到问题

在Hortonworks集群上通过Jupyter笔记本使用Pyspark 1.6.2处理以下步骤时,我们遇到了一个奇怪的情况:从pyspark数据框中的ORC表读取数据透视此表...

回答 1 投票 1

spark数据帧分组不计算空值

我有一个spark DataFrame,它由一个用count聚合的列分组:df.groupBy('a')。agg(count(“a”))。show + --------- + --- ------------- + | a | count(a)| + --------- + -------------...

回答 2 投票 1

Spark:内存繁重的连接操作的最佳实践

我有一个火花程序,涉及大型Hive表的连接操作(数百万行,数百列)。在这些连接期间使用的内存非常高。我想了解......

回答 1 投票 0

PySpark 2 - 正则表达式取代之前的一切

我有一个像“_row”的记录\ n“ 日期时间:2018.06.30 ^名称:ABC ^ Se:4 ^机器:XXXXXXX ^ InnerTrace:^ AdditionalInfo:^ 我想在每个之前删除所有内容......

回答 1 投票 1

如何在Spark中将大量文件加载到一个RDD中

我使用saveAsTextFile方法来保存RDD,但它不在文件中,而是有许多部分文件如下图所示。所以,我的问题是如何将这些文件重新加载到一个RDD中。

回答 2 投票 0

在Spark中对DataFrame进行排序时,钩子下会发生什么?

在Spark中对DataFrame进行排序时,钩子下会发生什么?例如,df = spark.read.format('csv')。option('foo')df.sort(i)我知道当你向DataFrame读取数据时会发生什么,但我...

回答 1 投票 0

如何将shell脚本中定义的变量用于Scala文件? [重复]

我有一个脚本文件,我在其中定义一些日期变量,在同一个文件中,我使用spark-shell命令调用Scala代码。 shell文件中定义的变量用作...

回答 1 投票 -3

纱线容器,火花执行器和EMR中可用节点之间的关系是什么?

假设我有一个拥有1个主节点,3个核心节点和5个任务节点的集群。如果我在YARN集群模式下运行spark作业,驱动程序将在主节点上运行(主节点也可以运行执行程序吗?),并且......

回答 1 投票 0

在PySpark 2上加入DataFrame时出错

我在使用Spark 2.3.1和PySpark时遇到了麻烦。 Firstable我试图做很多不同的操作,如连接和列选择,最后收集它或将其保存到csv文件但是......

回答 1 投票 0

Spark REST API,在Windows上提交应用程序NullPointerException

我使用Spark 2.3.1将我的PC用作Spark服务器,同时使用Spark Worker。起初,我使用了我的Ubuntu 16.04 LTS。一切正常,我试图运行SparkPi示例(使用...

回答 1 投票 0

如何从属性文件中设置Kafka参数?

我目前正在做的事情如下:val topic =“mytopic”val zkhosts =“localhost”val zkports =“2181”在我的代码中设置然后将其发送到kafkastream函数有效,但我想......

回答 1 投票 3

无法将Spark数据框发送到Kafka(java.lang.ClassNotFoundException:无法找到数据源:kafka。)

我在使用Spark数据框向Kafka推送数据时遇到了问题。让我通过示例示例详细解释我的场景。我想加载数据以激发并将spark输出发送到kafka。一世 ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.