apache-spark-2.0 相关问题

用于Apache Spark 2.0特有的问题。有关Apache Spark的一般问题,请使用标签[apache-spark]。

Spark-Hive 应用程序:集群上的 SASL 与 Kerberos 协商失败

我在 Kerberos 集群上运行的 Spark-Hive 应用程序遇到问题。我收到 javax.security.sasl.SaslException:GSS 启动失败错误,这似乎是由于未找到 ...

回答 1 投票 0

根据spark中的列值分割数据集

我正在尝试根据制造商列内容将数据集拆分为不同的数据集。它很慢请建议一种改进代码的方法,以便它可以更快地执行并减少

回答 3 投票 0

Spark SQL 查询失败并出现 NullPointerException

我正在尝试运行一个非常简单的涉及 join 和 orderby 子句的 SQL 查询,然后在最外面的 select stmt 中使用 UUID() 函数。查询失败 val query = Spark.sql("选择名称,u...

回答 1 投票 0

使用 Spark/scala 将客户和帐户数据映射到案例类

所以我有一个案例类客户数据和一个案例类帐户数据如下: 案例类客户数据( 客户 ID:字符串, 名字:字符串, ...

回答 1 投票 0

java.lang.IllegalStateException:读取增量文件时出错,使用 kafka 进行 Spark 结构化流处理

我在我们的项目中使用结构化流+ Kafka 进行实时数据分析。我使用的是 Spark 2.2,kafka 0.10.2。 我在从位于

回答 2 投票 0

读取包含嵌入逗号的带引号字段的 csv 文件

我正在Pyspark中读取csv文件,如下所示: df_raw=spark.read.option("标题","true").csv(csv_path) 但是,数据文件中引用的字段中嵌入了逗号,这 不应该是...

回答 5 投票 0

在 Scala 项目 Intellij IDE 中导入 Spark 版本 2.12.10 时出错

我正在尝试在 IntelliJ IDE 中运行 Scala Spark 代码。 我在项目根目录中创建了以下 build.sbt 文件: 名称:=“简单项目” 版本:=“0.1” 标量...

回答 1 投票 0

创建会话时的 Spark master 与 Spark 提交命令中的对比

如果我在创建SparkSession时在spark-submit命令和类中都设置了master,哪个优先? 命令示例: Spark-submit --class 样本类 --master 纱线簇 --name ...

回答 1 投票 0


Pyspark NLTK保存输出

我使用spark 2.3.1,对上千个输入文件进行NLTK。从输入文件中我提取了unigram,bigram和trigram单词,并将其保存在不同的数据框架中。现在我想保存...

回答 1 投票 0

Spark-缩短名称列表和压缩文件之间的字符串匹配搜索时间

我正在尝试使用Spark在压缩文件列表中搜索字符串列表。以下是我使用的工作代码。使用int键将字符串列表保存到字典中。我正在建立一个逗号...

回答 1 投票 0

pyspark.sql无法实例化HiveMetaStoreClient-从org.apache.commons.dbcp.connectionfactory中找到noclass

使用Pyspark(python 3.7.1)正在连接到外部配置单元postgres元存储。运行spark.sql(“ show database”)时出现错误无法实例化org.apache.hadoop.hive.ql.metadata ....

回答 1 投票 0

启用SSL后,Spark UI不使用HTTPS,而是通过HTTP转发到端口0

我们正在使用Spark 2.0.2和Hadoop 3.2.1。我已经在整个Hadoop上配置了SSL,而没有任何麻烦。但是Spark遇到了一些麻烦。没有SSL,我可以启动作业并查看Spark UI,...

回答 1 投票 0

运行时Spark Job服务器上下文用户更改

如何更改在Spark Job Server中创建的上下文的用户?我想更改正在使用sparkSession.sparkContext.sparkUser();]的用户。

回答 1 投票 0

如何删除Spark结构化流创建的旧数据?

如何删除由Spark结构化流(Spark 2.4.5)创建的旧数据?我有Parquet / Avro格式(不是Delta)的HDFS数据,该数据是由Spark结构化流创建的,并由...

回答 2 投票 0

Spark Dataframe中的嵌套数据透视图[重复]

我下面有两个DF MasterDF NumberDF(使用Hive负载创建)期望输出:逻辑填充对于Field1需要选择sch_id,其中CAT ='PAY'和SUB_CAT ='client'对于Field2需要选择sch_id ...

回答 3 投票 0

有一种方法可以指定从数据库(Oracle)读取数据(spark.read.jdbc)时不指定上下限的分区数?

我正在尝试使用Spark.read.jdbc从Oracle数据库读取数据。如果指定lowerbound,upperbound和numpartitions,则最后一个分区可能大于执行程序的内存。有没有办法...

回答 2 投票 1

在两个spark数据帧列中查找公共元素的有效方法

我必须在两个数据框列中找到公共元素的数量。例如DF1 ==== A B C D E DF2 ==== B D F G H结果应该为2,因为有2个公共元素B和D。我是...

回答 2 投票 0

当火花动态分配为true时,EMR群集显示太多执行程序

我正在EMR 5.27.0中以集群模式运行spark作业。 EMR的动态火花分配属性设置为true。现在,当我开始执行spark作业甚至启动spark shell时,我可以看到许多执行程序...

回答 1 投票 0

如何使用scala从文件夹读取所有json文件时应用过滤器?

我有一个包含多个json文件(first.json,second.json)的文件夹。使用scala,我将所有jsonfiles数据加载到spark的rdd / dataset,然后对数据应用过滤器。这里的问题是...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.