将此标记用于与PySpark中的SQL模块相关的问题。
我正在尝试在以下查询中运行:df3 = df1.join(df2,df1 [“ DID”] == df2 [“ JID”],'inner')\ .select(df1 [“ DID”],df1 [ “ amt”]-df2 [“ amt”] \ .where(df1 [“ DID”] ==“ BIG123”))。show()我收到错误信息...
我正在尝试在以下查询中运行:df3 = df1.join(df2,df1 [“ DID”] == df2 [“ JID”],'inner')\ .select(df1 [“ DID”],df1 [ “ amt”]-df2 [“ amt”] \ .where(df1 [“ DID”] ==“ BIG123”))。show()我收到错误信息...
Spark是否可以使用SQL直接在没有数据帧的情况下更新数据库?
Spark可以直接在源数据库中的表上执行SQL更新查询,而不必将表转换为数据框并将数据框重新写回数据库吗?谢谢...
我有2个数据集。示例数据集1:id |型号first_name |姓 - - - - - - - - - - - - - - - - - - - - - - - - - ---------- 1234 | 32 | 456765 | [456700,...
我可以保存一个拼合文件,该拼合文件由看起来像时间戳的列划分,但实际上是一个字符串。当我尝试使用spark.read.load()将镶木地板加载回spark中时,它会自动...
考虑我的数据:+ --- + ------------------- + ------------------- + | id |开始时间|结束时间| + --- + ------------------- + ------------------- + | 1 | 1970-01-01 07:00:00 | 1970-01-01 07:03:...
如果可能,我想在cassandra表中添加每列的描述。在创建表或向现有表添加新列时,如何在cassandra表中添加列描述,例如:...
我有两个数据框,如下所示,我试图根据ID数据框1查找两个数量之间的差异:ID I Amt 1 null 200 null 2 200 3 null 600 dataframe 2 ID I Amt 2 null ...
如何在Azure Databricks(Pyspark)中使用SQL查询取消旋转数据框
因此,我使用registerTempTable()从pyspark数据帧创建了一个临时表。该表具有如下数据:________________________________________________ |姓名| ...
我有一个pyspark数据框,如下面的输入数据框。它具有colA列,其中包含数字列表作为每个值。我想创建一个新列colC来解析来自...
我有这样的pyspark代码,spark_df = spark_df.orderBy('id','a1','c1')out_df = spark_df.groupBy('id','a1','a2')。agg(F. first('c1')。alias('c1'),F.last('c2')。alias('c2'),F.first('... >>)>
我有一个单列_c0的pyspark数据框。 a | b | c | clm4 = 1 | clm5 = 3 a | b | c | clm4 = 9 | clm6 = 60 | clm7 = 23我正在尝试将其转换为所选列的数据帧,例如clm1,clm2,clm3, clm4,clm6,...
查找值在PySpark Dataframe中特定列之间的所有列的列表
我有Spark DF,它由20列组成,我想从中查找哪个列的值介于高和低列值之间。时间,8,7,6,5,4,3,2,1,0,-1,-2,-3,-4,-5,-6,-7,-8,高,低09:16 ,...
我有一个PySpark数据框,其中第二列是列表列表。以下是我拥有的PySpark数据框:+ --- + ------------------------------ + | A | B | + ---...
我正在尝试根据“代码”列对所有“文档标题”进行分组。 “代码”是一个字符串数组。我遇到了类似的问题,但是解决方案似乎不起作用。这是数据模式...
我有一个文件夹(每天,每周),文件被丢弃,我需要以相同的格式在文件名中添加年和周/日,作为数据框的变量。前缀可以更改...
我有一个数据框;它看起来像下面的id 1id id2 ac1 2ac tre ty,我想删除其中包含“ id”和“ ac”的列,并保留其他列。如何在...
根据Pyspark中另一列中的值从同一列中的另一行值中替换一行中的值?
网络上存在这种变化,但与我期望的完全不一样。我有一个这样的数据框:+ ------ + ------- + ------------ + -------------- -+ ---------------- + -------- + --------- + | SEQ_ID | ...
如何使用Pyspark在Dataframe中将平面图与多列一起使用
我有一个DF,如下所示:名称城市开始时间结束时间user1伦敦2019-08-02 03:34:45 2019-08-02 03:52:03 user2波士顿2019-08-13 13:34:10 2019-08 -13 15:02:10 I ...