apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具，Spark是一种快速通用的集群计算系统。

PySpark / Spark窗口函数第一个/最后一个问题

根据我的理解，Spark中的第一个/最后一个函数将检索每个分区的第一行/最后一行/我无法理解为什么LAST函数提供的结果不正确。这是我的代码。 ...

sql apache-spark pyspark apache-spark-sql window-functions

回答 1 投票 1

Spark数据帧：派生列的连接方法

给定一个数据集，如下面的代码（df）所示，我的要求是能够添加派生列（DerivedCol）。此列的值对于idcol行组是常量，并且由...派生。

scala apache-spark apache-spark-sql

回答 1 投票 0

如何从df.collect（）中检索特定值导致PySpark？

我在PySpark中有以下DataFrame df。将pyspark.sql.functions导入为func df = spark \ .read \ .format（“org.elasticsearch.spark.sql”）\。load（“my_index / my_mapping”）\ ...

python apache-spark pyspark apache-spark-sql

回答 1 投票 0

将先前数据与spark scala中的当前数据进行比较

我想每月将Prev.data与当前数据进行比较。我有以下数据。数据集1 :(上一页）数据集2 :(最新）年月总和数...

scala apache-spark-sql

回答 2 投票 1

如何在SparkSQL中注册TCTable

Spark版本：2.2.0.cloudera2通常，我们以这种方式注册临时表：dataframe.registerTempTable（$ table_name）但是如果我想在SQL语句中创建一个表，如下所示：CREATE TABLE ...

apache-spark-sql

回答 1 投票 1

Spark CSV与各种分隔符到DataSet

我有两个CSV文件，我使用spark与Java聚合。这些文件具有不同的分隔符。 file1.dat：011！345！Ireland files2.dat：022Ç486ÇBrazil我用的代码：Dataset ...

java csv apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 3

pyspark group by sum

我有一个包含4列的pyspark数据帧。 id / number / value / x我想组合列id，数字，然后添加一个新的列，其中包含每个id和number的值之和。我想保留colunms x ...

pyspark apache-spark-sql spark-dataframe pyspark-sql

回答 2 投票 -1

使用列值作为spark DataFrame函数的参数

请考虑以下DataFrame：＃+ ------ + --- +＃| letter | rpt | ＃+ ------ + --- +＃| X | 3 | ＃| Y | 1 | ＃| ž| 2 | ＃+ ------ + --- +可以使用以下代码创建：df = spark ....

apache-spark pyspark apache-spark-sql pyspark-sql

回答 1 投票 3

PySpark - 来自列的to_date格式

我目前正在试图找出，如何通过列参数将String-format参数传递给to_date pyspark函数。具体来说，我有以下设置：sc = SparkContext ....

apache-spark pyspark apache-spark-sql

回答 2 投票 3

在scala方法之间传递Spark数据帧 - 性能

最近，我使用Scala和Spark开发了一个Spark Streaming应用程序。在这个应用程序中，我已经广泛使用了Implicit Class（Pimp my Library模式）来实现更一般的...

scala apache-spark apache-spark-sql implicit

回答 1 投票 0

PySpark RDD - 获得Rank，进入JSON

我有一个Hive查询，返回数据：日期，名称，分数1，分数2，平均分数1/1 / 2018，A，10,20,15 1/1 / 2018，B，20,20,20 1/1 / 2018年，C，15,10,12.5 1/1 / 2018，D，11,12,11.5 1/1/2018，E，21,29,25 1/1 / 2018，F，10，......

json apache-spark pyspark apache-spark-sql

回答 1 投票 0

如何将字典列表转换为Spark DataFrame

我想将我的词典列表转换为DataFrame。这是列表：mylist = [{“type_activity_id”：1，“type_activity_name”：“xxx”}，{“type_activity_id”：2，“type_activity_name”：“yyy”}，{“...

python pyspark apache-spark-sql

回答 2 投票 3

运行相关子查询时出现spark sql错误

我在Intellij Maven IDE中运行spark SQL查询，SELECT seq_no，amount，（从高级b中选择max（b.amount），其中b.seq_no <a.seq_no）last_high_prem ...

sql apache-spark apache-spark-sql correlated-subquery

回答 1 投票 1

如果列类型具有某些正则表达式模式，则pyspark忽略行

我有一个json格式的数据文件，当它是一个字符串“class”时，它的一个字段以字符串和结构类型存在：{“student”：“{\”one \“：\”one \“}”}当它是一个结构“类”时：{...

pyspark apache-spark-sql pyspark-sql

回答 1 投票 1

如何加入2个spark sql流

ENV：Scala spark版本：2.1.1这是我的流（从kafka读取）：val conf = new SparkConf（）。setMaster（“local [1]”）。setAppName（“JoinStreams”）val spark = SparkSession.builder（）的.config（CONF）...

scala apache-spark-sql

回答 1 投票 4

Spark SQL Java - 无法创建嵌套的Row对象

这是我尝试使用Spark SQL实现的最终模式| - references：array（nullable = true）...

java apache-spark apache-spark-sql

回答 1 投票 1

使用Spark .setMaster（“local [*]”）与.setMaster（“local [3]”）[复制]的不同输出

我正在研究火花一段时间。最近我遇到了一些奇怪的情况，我试图找出根本原因。我怀疑.setMaster（“local [*]”）和....的不同输出

apache-spark apache-spark-sql spark-streaming

回答 2 投票 2

无法使用spark-submit从蜂巢中找到表格

这是我的简单代码。 spark.sql（“select * from default.some_table”）在zeppelin或spark-shell中使用此代码时，它可以很好地工作。但是，请尝试使用spark-submit命令跟踪错误...