apache-spark-2.0 相关问题

用于Apache Spark 2.0特有的问题。有关Apache Spark的一般问题，请使用标签[apache-spark]。

Spark-Hive 应用程序：集群上的 SASL 与 Kerberos 协商失败

我在 Kerberos 集群上运行的 Spark-Hive 应用程序遇到问题。我收到 javax.security.sasl.SaslException：GSS 启动失败错误，这似乎是由于未找到 ...

apache-spark hadoop hive kerberos apache-spark-2.0

回答 1 投票 0

根据spark中的列值分割数据集

我正在尝试根据制造商列内容将数据集拆分为不同的数据集。它很慢请建议一种改进代码的方法，以便它可以更快地执行并减少

java apache-spark apache-spark-sql apache-spark-dataset apache-spark-2.0

回答 3 投票 0

Spark SQL 查询失败并出现 NullPointerException

我正在尝试运行一个非常简单的涉及 join 和 orderby 子句的 SQL 查询，然后在最外面的 select stmt 中使用 UUID() 函数。查询失败 val query = Spark.sql("选择名称，u...

sql apache-spark apache-spark-sql uuid apache-spark-2.0

回答 1 投票 0

使用 Spark/scala 将客户和帐户数据映射到案例类

所以我有一个案例类客户数据和一个案例类帐户数据如下：案例类客户数据（客户 ID：字符串，名字：字符串， ...

scala apache-spark apache-spark-sql apache-spark-dataset apache-spark-2.0

回答 1 投票 0

java.lang.IllegalStateException：读取增量文件时出错，使用 kafka 进行 Spark 结构化流处理

我在我们的项目中使用结构化流+ Kafka 进行实时数据分析。我使用的是 Spark 2.2，kafka 0.10.2。我在从位于

apache-kafka apache-spark-2.0 spark-structured-streaming checkpoint

回答 2 投票 0

读取包含嵌入逗号的带引号字段的 csv 文件

我正在Pyspark中读取csv文件，如下所示： df_raw=spark.read.option("标题","true").csv(csv_path) 但是，数据文件中引用的字段中嵌入了逗号，这不应该是...

csv apache-spark pyspark apache-spark-sql apache-spark-2.0

回答 5 投票 0

在 Scala 项目 Intellij IDE 中导入 Spark 版本 2.12.10 时出错

我正在尝试在 IntelliJ IDE 中运行 Scala Spark 代码。我在项目根目录中创建了以下 build.sbt 文件：名称：=“简单项目” 版本：=“0.1” 标量...

scala apache-spark intellij-idea apache-spark-2.0 scala-2.12

回答 1 投票 0

创建会话时的 Spark master 与 Spark 提交命令中的对比

如果我在创建SparkSession时在spark-submit命令和类中都设置了master，哪个优先？命令示例： Spark-submit --class 样本类 --master 纱线簇 --name ...

apache-spark apache-spark-2.0

回答 1 投票 0

date

scala apache-spark apache-spark-2.0

回答 1 投票 0

Pyspark NLTK保存输出

我使用spark 2.3.1，对上千个输入文件进行NLTK。从输入文件中我提取了unigram，bigram和trigram单词，并将其保存在不同的数据框架中。现在我想保存...

apache-spark pyspark apache-spark-sql apache-spark-mllib apache-spark-2.0

回答 1 投票 0

Spark-缩短名称列表和压缩文件之间的字符串匹配搜索时间

我正在尝试使用Spark在压缩文件列表中搜索字符串列表。以下是我使用的工作代码。使用int键将字符串列表保存到字典中。我正在建立一个逗号...

python apache-spark join search apache-spark-2.0

回答 1 投票 0

pyspark.sql无法实例化HiveMetaStoreClient-从org.apache.commons.dbcp.connectionfactory中找到noclass

使用Pyspark（python 3.7.1）正在连接到外部配置单元postgres元存储。运行spark.sql（“ show database”）时出现错误无法实例化org.apache.hadoop.hive.ql.metadata ....

apache-spark pyspark apache-spark-sql apache-spark-2.0

回答 1 投票 0

启用SSL后，Spark UI不使用HTTPS，而是通过HTTP转发到端口0

我们正在使用Spark 2.0.2和Hadoop 3.2.1。我已经在整个Hadoop上配置了SSL，而没有任何麻烦。但是Spark遇到了一些麻烦。没有SSL，我可以启动作业并查看Spark UI，...

apache-spark apache-spark-2.0

回答 1 投票 0

运行时Spark Job服务器上下文用户更改

如何更改在Spark Job Server中创建的上下文的用户？我想更改正在使用sparkSession.sparkContext.sparkUser（）;]的用户。

apache-spark apache-spark-2.0 job-server

回答 1 投票 0

如何删除Spark结构化流创建的旧数据？

如何删除由Spark结构化流（Spark 2.4.5）创建的旧数据？我有Parquet / Avro格式（不是Delta）的HDFS数据，该数据是由Spark结构化流创建的，并由...

apache-spark apache-spark-sql spark-structured-streaming apache-spark-2.0

回答 2 投票 0

Spark Dataframe中的嵌套数据透视图[重复]

我下面有两个DF MasterDF NumberDF（使用Hive负载创建）期望输出：逻辑填充对于Field1需要选择sch_id，其中CAT ='PAY'和SUB_CAT ='client'对于Field2需要选择sch_id ...

apache-spark hive pivot pivot-table apache-spark-2.0

回答 3 投票 0

有一种方法可以指定从数据库（Oracle）读取数据（spark.read.jdbc）时不指定上下限的分区数？

我正在尝试使用Spark.read.jdbc从Oracle数据库读取数据。如果指定lowerbound，upperbound和numpartitions，则最后一个分区可能大于执行程序的内存。有没有办法...

apache-spark apache-spark-2.0

回答 2 投票 1

在两个spark数据帧列中查找公共元素的有效方法

我必须在两个数据框列中找到公共元素的数量。例如DF1 ==== A B C D E DF2 ==== B D F G H结果应该为2，因为有2个公共元素B和D。我是...

apache-spark-2.0

回答 2 投票 0

当火花动态分配为true时，EMR群集显示太多执行程序

我正在EMR 5.27.0中以集群模式运行spark作业。 EMR的动态火花分配属性设置为true。现在，当我开始执行spark作业甚至启动spark shell时，我可以看到许多执行程序...

apache-spark apache-spark-sql amazon-emr apache-spark-2.0

回答 1 投票 0

如何使用scala从文件夹读取所有json文件时应用过滤器？

我有一个包含多个json文件（first.json，second.json）的文件夹。使用scala，我将所有jsonfiles数据加载到spark的rdd / dataset，然后对数据应用过滤器。这里的问题是...

apache-spark-2.0

回答 1 投票 0

apache-spark-2.0 相关问题

最新问题