apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

PySpark / Spark窗口函数第一个/最后一个问题

根据我的理解,Spark中的第一个/最后一个函数将检索每个分区的第一行/最后一行/我无法理解为什么LAST函数提供的结果不正确。这是我的代码。 ...

回答 1 投票 1

Spark数据帧:派生列的连接方法

给定一个数据集,如下面的代码(df)所示,我的要求是能够添加派生列(DerivedCol)。此列的值对于idcol行组是常量,并且由...派生。

回答 1 投票 0

如何从df.collect()中检索特定值导致PySpark?

我在PySpark中有以下DataFrame df。将pyspark.sql.functions导入为func df = spark \ .read \ .format(“org.elasticsearch.spark.sql”)\。load(“my_index / my_mapping”)\ ...

回答 1 投票 0

将先前数据与spark scala中的当前数据进行比较

我想每月将Prev.data与当前数据进行比较。我有以下数据。数据集1 :(上一页)数据集2 :(最新)年月总和数...

回答 2 投票 1

如何在SparkSQL中注册TCTable

Spark版本:2.2.0.cloudera2通常,我们以这种方式注册临时表:dataframe.registerTempTable($ table_name)但是如果我想在SQL语句中创建一个表,如下所示:CREATE TABLE ...

回答 1 投票 1

Spark CSV与各种分隔符到DataSet

我有两个CSV文件,我使用spark与Java聚合。这些文件具有不同的分隔符。 file1.dat:011!345!Ireland files2.dat:022Ç486ÇBrazil我用的代码:Dataset ...

回答 1 投票 3

pyspark group by sum

我有一个包含4列的pyspark数据帧。 id / number / value / x我想组合列id,数字,然后添加一个新的列,其中包含每个id和number的值之和。我想保留colunms x ...

回答 2 投票 -1

使用列值作为spark DataFrame函数的参数

请考虑以下DataFrame:#+ ------ + --- +#| letter | rpt | #+ ------ + --- +#| X | 3 | #| Y | 1 | #| ž| 2 | #+ ------ + --- +可以使用以下代码创建:df = spark ....

回答 1 投票 3

PySpark - 来自列的to_date格式

我目前正在试图找出,如何通过列参数将String-format参数传递给to_date pyspark函数。具体来说,我有以下设置:sc = SparkContext ....

回答 2 投票 3

在scala方法之间传递Spark数据帧 - 性能

最近,我使用Scala和Spark开发了一个Spark Streaming应用程序。在这个应用程序中,我已经广泛使用了Implicit Class(Pimp my Library模式)来实现更一般的...

回答 1 投票 0

PySpark RDD - 获得Rank,进入JSON

我有一个Hive查询,返回数据:日期,名称,分数1,分数2,平均分数1/1 / 2018,A,10,20,15 1/1 / 2018,B,20,20,20 1/1 / 2018年,C,15,10,12.5 1/1 / 2018,D,11,12,11.5 1/1/2018,E,21,29,25 1/1 / 2018,F,10,......

回答 1 投票 0

如何将字典列表转换为Spark DataFrame

我想将我的词典列表转换为DataFrame。这是列表:mylist = [{“type_activity_id”:1,“type_activity_name”:“xxx”},{“type_activity_id”:2,“type_activity_name”:“yyy”},{“...

回答 2 投票 3

运行相关子查询时出现spark sql错误

我在Intellij Maven IDE中运行spark SQL查询,SELECT seq_no,amount,(从高级b中选择max(b.amount),其中b.seq_no <a.seq_no)last_high_prem ...

回答 1 投票 1

如果列类型具有某些正则表达式模式,则pyspark忽略行

我有一个json格式的数据文件,当它是一个字符串“class”时,它的一个字段以字符串和结构类型存在:{“student”:“{\”one \“:\”one \“}”}当它是一个结构“类”时:{...

回答 1 投票 1

如何加入2个spark sql流

ENV:Scala spark版本:2.1.1这是我的流(从kafka读取):val conf = new SparkConf()。setMaster(“local [1]”)。setAppName(“JoinStreams”)val spark = SparkSession.builder( )的.config(CONF)...

回答 1 投票 4

Spark SQL Java - 无法创建嵌套的Row对象

这是我尝试使用Spark SQL实现的最终模式| - references:array(nullable = true)...

回答 1 投票 1

使用Spark .setMaster(“local [*]”)与.setMaster(“local [3]”)[复制]的不同输出

我正在研究火花一段时间。最近我遇到了一些奇怪的情况,我试图找出根本原因。我怀疑.setMaster(“local [*]”)和....的不同输出

回答 2 投票 2

无法使用spark-submit从蜂巢中找到表格

这是我的简单代码。 spark.sql(“select * from default.some_table”)在zeppelin或spark-shell中使用此代码时,它可以很好地工作。但是,请尝试使用spark-submit命令跟踪错误...

回答 1 投票 0

Spark Dataframe复杂排序

我有一个事件日志数据集,如下所示:|病人|时间戳| event_st | extra_info | | 1 | 1/1/2018 2:30 | urg_admission | x | | 1 | 1/1/2018 3:00 | urg_discharge | ...

回答 1 投票 -1

如何将UDF函数的返回值保存到两列?

我的函数get_data返回一个元组:两个整数值。 get_data_udf = udf(lambda id:get_data(spark,id),(IntegerType(),IntegerType()))我需要将它们分成两列val1和val2。怎么样 ...

回答 3 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.