pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

对象不可调用错误|哪里功能

我正在尝试在以下查询中运行:df3 = df1.join(df2,df1 [“ DID”] == df2 [“ JID”],'inner')\ .select(df1 [“ DID”],df1 [ “ amt”]-df2 [“ amt”] \ .where(df1 [“ DID”] ==“ BIG123”))。show()我收到错误信息...

回答 2 投票 0

对象不可调用错误|哪里功能Pyspark

我正在尝试在以下查询中运行:df3 = df1.join(df2,df1 [“ DID”] == df2 [“ JID”],'inner')\ .select(df1 [“ DID”],df1 [ “ amt”]-df2 [“ amt”] \ .where(df1 [“ DID”] ==“ BIG123”))。show()我收到错误信息...

回答 2 投票 0

Spark是否可以使用SQL直接在没有数据帧的情况下更新数据库?

Spark可以直接在源数据库中的表上执行SQL更新查询,而不必将表转换为数据框并将数据框重新写回数据库吗?谢谢...

回答 1 投票 -3

比较pyspark中的两个数据集

我有2个数据集。示例数据集1:id |型号first_name |姓 - - - - - - - - - - - - - - - - - - - - - - - - - ---------- 1234 | 32 | 456765 | [456700,...

回答 1 投票 1

火花加载拼写无法从分区列推断时间戳

我可以保存一个拼合文件,该拼合文件由看起来像时间戳的列划分,但实际上是一个字符串。当我尝试使用spark.read.load()将镶木地板加载回spark中时,它会自动...

回答 1 投票 0

为Spark SQL中的每一分钟差异创建一个新行

考虑我的数据:+ --- + ------------------- + ------------------- + | id |开始时间|结束时间| + --- + ------------------- + ------------------- + | 1 | 1970-01-01 07:00:00 | 1970-01-01 07:03:...

回答 2 投票 0

如何在cassandra表中添加列描述?

如果可能,我想在cassandra表中添加每列的描述。在创建表或向现有表添加新列时,如何在cassandra表中添加列描述,例如:...

回答 1 投票 0

如何连接两个数据框并从数据框中减去两列

我有两个数据框,如下所示,我试图根据ID数据框1查找两个数量之间的差异:ID I Amt 1 null 200 null 2 200 3 null 600 dataframe 2 ID I Amt 2 null ...

回答 1 投票 0

如何在Azure Databricks(Pyspark)中使用SQL查询取消旋转数据框

因此,我使用registerTempTable()从pyspark数据帧创建了一个临时表。该表具有如下数据:________________________________________________ |姓名| ...

回答 1 投票 1

解析数据框列中的值

我有一个pyspark数据框,如下面的输入数据框。它具有colA列,其中包含数字列表作为每个值。我想创建一个新列colC来解析来自...

回答 1 投票 -2

PySpark在一个分区中的第一个和最后一个函数

我有这样的pyspark代码,spark_df = spark_df.orderBy('id','a1','c1')out_df = spark_df.groupBy('id','a1','a2')。agg(F. first('c1')。alias('c1'),F.last('c2')。alias('c2'),F.first('... >>)>

回答 1 投票 1

如何根据条件将字符串数组转换为结构数组

我有一个单列_c0的pyspark数据框。 a | b | c | clm4 = 1 | clm5 = 3 a | b | c | clm4 = 9 | clm6 = 60 | clm7 = 23我正在尝试将其转换为所选列的数据帧,例如clm1,clm2,clm3, clm4,clm6,...

回答 1 投票 0

查找值在PySpark Dataframe中特定列之间的所有列的列表

我有Spark DF,它由20列组成,我想从中查找哪个列的值介于高和低列值之间。时间,8,7,6,5,4,3,2,1,0,-1,-2,-3,-4,-5,-6,-7,-8,高,低09:16 ,...

回答 1 投票 1

Pyspark中的排序列表,使用udf和numpy

我有一个PySpark数据框,其中第二列是列表列表。以下是我拥有的PySpark数据框:+ --- + ------------------------------ + | A | B | + ---...

回答 1 投票 0

Pyspark将array 转换为字符串和分组依据

我正在尝试根据“代码”列对所有“文档标题”进行分组。 “代码”是一个字符串数组。我遇到了类似的问题,但是解决方案似乎不起作用。这是数据模式...

回答 1 投票 0

使用文件名创建变量-PySpark

我有一个文件夹(每天,每周),文件被丢弃,我需要以相同的格式在文件名中添加年和周/日,作为数据框的变量。前缀可以更改...

回答 2 投票 0

Pyspark:基于字符串的子集删除列

我有一个数据框;它看起来像下面的id 1id id2 ac1 2ac tre ty,我想删除其中包含“ id”和“ ac”的列,并保留其他列。如何在...

回答 1 投票 0


根据Pyspark中另一列中的值从同一列中的另一行值中替换一行中的值?

网络上存在这种变化,但与我期望的完全不一样。我有一个这样的数据框:+ ------ + ------- + ------------ + -------------- -+ ---------------- + -------- + --------- + | SEQ_ID | ...

回答 1 投票 1

如何使用Pyspark在Dataframe中将平面图与多列一起使用

我有一个DF,如下所示:名称城市开始时间结束时间user1伦敦2019-08-02 03:34:45 2019-08-02 03:52:03 user2波士顿2019-08-13 13:34:10 2019-08 -13 15:02:10 I ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.