pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

结构python的项目数

使用python和pyspark,我正在创建一个新的struct数据框。我如何测试此结构是否没有嵌套字段,如果没有,请删除它们?在下面的代码中,有两个结构...

回答 1 投票 0

从pyspark sql中的每个分区获取n行

我有一个配置单元表,该配置表分为两列x和y。我想在pyspark中编写一个SQL,该SQL从每个分区获取n行(前n行或随机n行,以较容易者为准)。在...

回答 1 投票 -3

spark RangeBetween如何以降序方式工作?

我以为rangeBetween(start,end)会查询范围的值(cur_value-start,cur_value + end)。 https://spark.apache.org/docs/2.3.0/api/java/org/apache/spark/sql/expressions/WindowSpec.html ...

回答 1 投票 1

Pyspark展平的嵌入式结构全部进入同一级别

是否有一种简单的方法可以使顶部到底部的图片之间的所有列都以相同的级别彼此相邻,并且层次相同?]

回答 1 投票 0

Pyspark SIZE函数本身起作用,但在UDF中不起作用

无法理解为什么SIZE本身可以工作,而不能在UDF中工作。如上图所示,输出为IntegerType。以max为例。

回答 1 投票 -3

根据不同的规则创建结构字段

我正在创建嵌套元素的结构。我在如何使用测试创建嵌套结构方面遇到困难。看下面我的代码。我想添加struct :(如果x2.fields3 == 1,则创建...

回答 1 投票 0

嵌套的json和数据框-从数组中检索数据

我正在尝试从json文件中检索数据。 df = spark.read.json('/ home / data / activities.json',multiLine = True)内容如下所示(我仅包含1个“数据”行,共有94个):{“元... 。

回答 1 投票 1

结构数据框的更改值

我想从我的data1的另一个现有结构A11中填充字段结构,将得到x1.f2的值。我尝试了不同的方式,但没有成功。拜托,谁有主意?模式= ...

回答 1 投票 0

使用pysprk将多级json转换为数据框

我输入的JSON文件是{“名称”:“测试”,“移动”:12345678,“布尔值”:true,“宠物”:[“狗”,“猫”],“地址”:{“永久地址“:” USA“,”当前地址“:” AU“}}要求是...

回答 1 投票 0

嵌套结构的填充元素

schema = StructType([StructField('Info1',StructType([StructField('A1',StructType([StructField('A11',IntegerType(),True)...]

回答 1 投票 0

Saprk数据框中最多两个列的下一个值的平均值

[下面是样本数据帧:id和时间值3 n1 7 50 10 n1 3 40 11 n1 5 30 1 n1 2 20 2 n1 6 20 9 n1 4 10 4 n1 1 ...

回答 3 投票 -1

Pyspark:加入2个数据框,仅从第2个数据框(组织化)中获取新记录

我有2个数据帧df1和df2。我想要这样的数据框结果:1.记录df1的所有记录。 2.仅从df2中获取新记录(df1中不可用的记录)3.生成新的...

回答 1 投票 0

当两个应用程序同时访问一个localspark会话实例时发生错误。调用o2402.defaultParallelism

在我的情况下,两个应用程序同时尝试访问相同的spark上下文。但是在某些情况下,由于火花上下文已停止,因此出现了defaultParallelism错误。错误堆栈跟踪:py4j ....

回答 1 投票 0

Saprk数据框中最大两个值的平均值

下面是示例数据帧:id和时间值3 n1 7 50 10 n1 3 40 11 n1 5 30 1 n1 2 20 2 n1 6 20 9 n1 ...

回答 1 投票 -2

使用pySpark将值作为十进制分隔符打印为十进制值

我需要将String Type的数据框列转换为double并添加格式掩码,例如千位分隔符和小数位。输入数据帧:列(StringType)2655.00 15722.50 235354.66 ...

回答 2 投票 1

pyspark映射数据帧中的每一行并应用返回数据帧的UDF

我有一个具有若干行的数据框。我可以使用以下代码遍历此数据帧:df.rdd.collect()中的行:但这不能并行工作,对吗?所以我要映射...

回答 1 投票 0

将具有不同列的多个pyspark数据帧组合在一起

我有一本包含20多个数据帧的字典。它们每个都有不同的列和大小。我想遍历字典并一次比较2个数据帧(left_df和rigt_df),添加...

回答 1 投票 1

如何选择Pyspark列并将其作为新行添加到数据框中?

我有一个JSON文件,我想执行一些ETL任务。我想提取一列并将其值附加为数据框中的新行。例如,如果我有一个像这样的数据框:---------------------...

回答 1 投票 0

如何使用PySpark SQL以分钟为单位找到2个时间戳差异?

SQL:DATEDIFF(mi,ClockInUTC_End,ClockInUTC_Snd)TimeinMinutes我想在PySpark SQL中使用它作为替代。 spark.sql(“”)

回答 1 投票 -1

将Informatica转换为Pyspark

我正在尝试将informatica转换转换为pyspark转换,但是我陷入了下面所示代码中替换char的问题:“ DECODE(TRUE,ISNULL(v_check_neg _ **)OR v_check_neg _ ** =``,...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.