apache-spark-2.0 相关问题

用于Apache Spark 2.0特有的问题。有关Apache Spark的一般问题,请使用标签[apache-spark]。

Spark Structured Streaming Window()函数 - GeneratedIterator增长超过64 KB

我正在使用Spark Structured Streaming方法运行以下Sliding Window SQL查询。 “SELECT WINDOW(record_time,\”120秒\“,\”1秒\“),COUNT(*)FROM记录GROUP BY WINDOW(...

回答 1 投票 2

Spark 2.x数据集的Kryo序列化

使用Dataset API时是否仍需要Kryo序列化?因为数据集使用编码器进行序列化和反序列化:Kyro序列化是否适用于数据集? (...

回答 1 投票 7

org.apache.spark.sql.AnalysisException:无法解析'`S.SID`'

我正在使用Java语言。我的代码中有以下查询:public static String GET_E_BCHGS =“SELECT BCL。*”+“FROM(SELECT *”+“FROM(SELECT(SELECT BILLABLE_CHG_ID”+“...)

回答 1 投票 0

使用Apache Spark读取Json文件

我试图使用Spark v2.0.0读取Json文件。如果简单的数据代码工作得很好。如果数据有点复杂,当我打印df.show()时数据没有以正确的方式显示。 ...

回答 5 投票 5

使用Apache Spark从数据框中获取独特的计数

我的数据看起来像这样+ -------------- + --------- + ------- + --------- + | dataOne | OtherData | dataTwo | dataThree | + -------------- + --------- | ------- + --------- + |最佳|树| ...

回答 1 投票 4

如何从两个数据帧d1和d2的连接中过滤出记录,其中d1中的所有列=!= d2中的所有相应列

基本上我想检查新文件与昨天文件的比较是否有更新的记录。例如。我有两个文件,“备份文件”和“当前文件”,我正在创建两个...

回答 2 投票 0

Apache Spark连接器从Azure Queue服务读取?

这可能是一个配置问题,但无法找到我想解决的问题的具体答案。我正在寻找一个连接器,通过...从Azure存储队列服务中读取

回答 1 投票 0

Spark 2.2.0数据集中的输出不是可读格式

以下是我试图在intellij IDE上使用spark2.2.0执行的代码。但我得到的输出并不是以可读格式显示的。 val spark = SparkSession .builder()....

回答 1 投票 0

Spark 2.0.1 java.lang.NegativeArraySizeException

我开始玩Spark 2.0.1了。新的数据集API非常干净,但我遇到了非常简单的操作问题。也许我错过了什么,希望有人可以提供帮助。这些说明......

回答 1 投票 1

无法将Apache Spark应用程序提交到容器化群集

我使用spark-submit和内部REST API运行Spark应用程序时遇到问题。我要演示的部署方案是Spark在我的本地笔记本电脑上作为集群运行。 ...

回答 1 投票 0

如何一次运行多个Spark 2.0实例(在多个Jupyter笔记本中)?

我有一个脚本,方便我在Jupyter笔记本中使用Spark。这很棒,除非我在第二个笔记本中运行spark命令(例如测试一些临时工作)。一世 ...

回答 1 投票 2

Spark 2.x saveAsTable

我试图使用Spark 2.1.0 java api将DataFrame(行数据集)作为Hive表持久化。我尝试在DataFrameWriter类中使用saveAsTable方法。我的代码看起来像:df.write(...

回答 1 投票 1

使用join时,Sparkjob中超出了GC开销限制

我正在写一个火花工作,以获得按学生日期过滤的最新学生记录。但是当我用十万条记录尝试这个时,它工作得很好。但当我用大量的...运行它时

回答 1 投票 1

PySpark 2 - 正则表达式取代之前的一切

我有一个像“_row”的记录\ n“ 日期时间:2018.06.30 ^名称:ABC ^ Se:4 ^机器:XXXXXXX ^ InnerTrace:^ AdditionalInfo:^ 我想在每个之前删除所有内容......

回答 1 投票 1

Spark Job在第一次尝试时无法连接到oracle

我们正在运行连接到oracle并获取一些数据的spark工作。始终尝试0或1的JDBCRDD任务失败,并出现以下错误。在随后的尝试任务中完成。正如少数人所建议的......

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.