apache-spark-2.0 相关问题

用于Apache Spark 2.0特有的问题。有关Apache Spark的一般问题,请使用标签[apache-spark]。


Spark Job在第一次尝试时无法连接到oracle

我们正在运行连接到oracle并获取一些数据的spark工作。始终尝试0或1的JDBCRDD任务失败,并出现以下错误。在随后的尝试任务中完成。正如少数人所建议的......

回答 3 投票 0

PySpark 2 - 正则表达式取代之前的一切

我有一个像“_row”的记录\ n“ 日期时间:2018.06.30 ^名称:ABC ^ Se:4 ^机器:XXXXXXX ^ InnerTrace:^ AdditionalInfo:^ 我想在每个之前删除所有内容......

回答 1 投票 1

使用join时,Sparkjob中超出了GC开销限制

我正在写一个火花工作,以获得按学生日期过滤的最新学生记录。但是当我用十万条记录尝试这个时,它工作得很好。但当我用大量的...运行它时

回答 1 投票 1

Spark 2.x saveAsTable

我试图使用Spark 2.1.0 java api将DataFrame(行数据集)作为Hive表持久化。我尝试在DataFrameWriter类中使用saveAsTable方法。我的代码看起来像:df.write(...

回答 1 投票 1

如何一次运行多个Spark 2.0实例(在多个Jupyter笔记本中)?

我有一个脚本,方便我在Jupyter笔记本中使用Spark。这很棒,除非我在第二个笔记本中运行spark命令(例如测试一些临时工作)。一世 ...

回答 1 投票 2

无法将Apache Spark应用程序提交到容器化群集

我使用spark-submit和内部REST API运行Spark应用程序时遇到问题。我要演示的部署方案是Spark在我的本地笔记本电脑上作为集群运行。 ...

回答 1 投票 0

Spark 2.0.1 java.lang.NegativeArraySizeException

我开始玩Spark 2.0.1了。新的数据集API非常干净,但我遇到了非常简单的操作问题。也许我错过了什么,希望有人可以提供帮助。这些说明......

回答 1 投票 1

Spark 2.2.0数据集中的输出不是可读格式

以下是我试图在intellij IDE上使用spark2.2.0执行的代码。但我得到的输出并不是以可读格式显示的。 val spark = SparkSession .builder()....

回答 1 投票 0

Apache Spark连接器从Azure Queue服务读取?

这可能是一个配置问题,但无法找到我想解决的问题的具体答案。我正在寻找一个连接器,通过...从Azure存储队列服务中读取

回答 1 投票 0

如何从两个数据帧d1和d2的连接中过滤出记录,其中d1中的所有列=!= d2中的所有相应列

基本上我想检查新文件与昨天文件的比较是否有更新的记录。例如。我有两个文件,“备份文件”和“当前文件”,我正在创建两个...

回答 2 投票 0
推荐问题