pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

Spark SQL:从Spark sql中的日期减去天数

我如何以编程方式从Spark sql中的日期中减去几天? val date =“ 2019-10-01” val tmp = spark.sql(“”“从my_table中选择id,count(distinct purchase_id)作为count_purchases,其中...

回答 2 投票 -1

是否存在针对“ org.apache.spark.SparkException的解决方法:Kryo序列化失败:缓冲区溢出。可用:0,是否需要:n”错误?

我正在通过spark-submit运行pyspark作业,在该作业中,在应用某些附加逻辑之前,先将两个大型拼花板表连接在一起。提交后,所有任务都会失败,并且...

回答 1 投票 0

Spark Dataframe中列的最大两个下一个值的平均值

[下面是样本数据帧:id和时间值3 n1 7 50 10 n1 3 40 11 n1 5 30 1 n1 2 20 2 n1 6 20 9 n1 4 10 4 n1 1 ...

回答 2 投票 -1

Pyspark连接数据框中列的逗号分隔值

所以我有两个要加入的数据框。渔获物是第二个表中存储有逗号分隔的值,其中一个与表A中的列匹配。我如何在Pyspark中使用它。下面...

回答 1 投票 0

如何计算上一次满足条件之间的天数?

当前df:df = spark.createDataFrame(((“ 2020-01-12”,“ d1”,0),(“ 2020-01-12”,“ d2”,0),(“ 2020-01- 13“,” d3“,0),(” 2020-01-14“,” d4“,1),(” 2020-01-15“,” d5“,0),(” 2020-01-15“ ,“ d6”,...

回答 2 投票 0

Spark成功在循环运行中提交缓慢

我有一个程序,其中通过这样的python脚本进行多个火花提交,#test_python_script.py为range(3)中的i导入os:os.system('spark-submit test_spark_script.py'...

回答 1 投票 0

Pyspark sql用于oracle子查询

如何将以下基于oracle的sql查询写入等效的pyspark sql,因为不支持此操作,因为它是由于在spark.sql(* query)下嵌套造成的。有没有办法使用pyspark ... [

回答 2 投票 0

如何在Pyspark中逐元素连接两个ArrayType(StringType())列?

我在spark数据帧中有两个ArrayType(StringType())列,我想按元素方式将这两列连接起来:输入:+ --------- + -------- -+ | col1 | col2 | + --------- + --------- + | ['...

回答 3 投票 0

如何在PySpark中计算多个列和滚动窗口中的不同元素

假设我们有以下数据框:端口|标志|时间戳--------------------------------------- 20 | S | 2009-04-24T17:13:14 + 00:00 30 | R | 2009-04-24T17:14:14 + 00:00 32 | ...

回答 1 投票 1

是否有可能在PySpark中使用爆炸功能之前将字符串类型的列更改为数组类型的列?

我想知道是否可以将String类型的“ data”列更改为数组类型,但数字之间用逗号分隔。 #+ ---------- + --------------------- + ------------ +#|日期| ...

回答 1 投票 0

按列稀疏到pyspark中的密集数组

我有两个数据框,我需要从中获取信息以生成第三个数据框。第一个数据帧包含有关用户按项目进行迭代的信息,例如+ ----- + --------------- + ----------- + | user | ...

回答 3 投票 1


VectorAssembler的格式错误,将不必要的值赋予特征

我已经多次使用VectorAssembler,效果很好。但是今天,我将不需要的数据添加到功能中,如下图所示。输入是来自pySpark数据帧的4个没有NaN的特征。 ...

回答 1 投票 0

在另一个Spark SQL查询中使用PySpark数据框列

我有一种情况,我试图查询表并将该查询的结果(数据框)用作另一个查询的IN子句。从第一个查询中,我得到以下数据框:+ ----------------- + ...

回答 2 投票 0

将两个不同类型的pyspark数据框列相乘(数组[double] vs double),而不用轻拂

我的问题与此处的问题相同,但是我需要在pyspark中解决问题并且没有微风。例如,如果我的pyspark数据框如下所示:重量vec“ u1” | 0.1 | [2,4,6] ...

回答 1 投票 0

生成2个Pyspark数据帧之间的不匹配列的报告

团队,我们需要根据完全相同结构的2个Pyspark数据帧之间的关键字段生成不匹配列的报告。这是第一个数据帧->>> df.show()+ ----...

回答 1 投票 -1

py4JJava错误-使用选择语句时发生错误

我正在Zeppelin笔记本中使用pspark,并尝试使用SELECT语句获取数据。我只是想查询一个表,但以下命令却出现奇怪的错误:%pyspark spark.sql('...

回答 1 投票 6

如何计算Pyspark数据框中的元素

我有一个pyspark数据框。这是电影数据集。一栏是被“ |”分割的流派。每部电影都有多种流派。体裁= spark.sql(“从电影中选择不同的体裁ORDER BY体裁ASC”)...

回答 3 投票 0

pyspark中的反向分组功能?

样本数据:+ ----------- + ------------ + --------- + |城市|大陆|价格| + ----------- + ------------ + --------- + | A |亚洲| 100 | | B |亚洲| 110 | | ...

回答 1 投票 0

[monotonically_increasing_id大于数据框中的总记录数

我下面有pyspark代码。我正在尝试创建一个不断增加的新match_id。旧的match_id是随机的唯一值。 match_id表示......>

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.