pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

如何在Spark(Python)中订购我的Row对象的字段

我在Spark中创建Row对象。我不希望我的字段按字母顺序排序。但是,如果我执行以下操作,则按字母顺序排序。 row = Row(foo = 1,bar = 2)然后它创建一个...

回答 3 投票 11

如何根据同一列的条件更改PySpark数据帧中的值?

考虑一个示例数据帧:df = + ------- + ----- + |高新|状态| + ------- + ----- + | 70 | wa | | 50 | mn | | 20 | fl | | 50 | mo | | 10 | ar | | 90 | wi | | 30 | al | | ...

回答 1 投票 0

pyspark approxQuantile功能

我有这些列id,price,timestamp的数据框。我想找到按ID分组的中值。我正在使用此代码来查找它,但它给了我这个错误。来自pyspark.sql导入...

回答 2 投票 8

如何在pyspark中创建派生列时解决以下问题?

我试图根据字典中给出的数据对数据框中的特定列进行分箱。下面是我使用的数据帧:df SNo,Name,CScore 1,x,700 2,y,850 3,z,560 4,a,578 5,b,456 6,...

回答 1 投票 0

Pyspark - 在groupby和orderBy之后选择Column中的Distinct值

所以我的表看起来像这样:+ ------------------- + ------- + ---------- + --- --------- + | trip_id | line_id | ef_ar_ts |站| + ------------------- ------- + + ---------- + ---------- - + | 80:......

回答 1 投票 0

Spark过滤器未按预期工作。“Column”对象不可调用

在Spark Dataframe中使用过滤器中的“and”子句时,它返回Spark.SQL.Column而不是Spark Dataframe。但对于一个条件,它工作正常。如何显示()或迭代Spark Sql ...

回答 1 投票 0

使用另一个(布尔)数组列子集一个数组列

我有这样的Dataframe(在Pyspark 2.3.1中):来自pyspark.sql import Row my_data = spark.createDataFrame([Row(a = [9,3,4],b = ['a','b', 'c'],mask = [True,False,False]),行(a = [7,2,6,4],...

回答 3 投票 2

从dataframe插入hive不起作用

我正在尝试使用以下命令将数据框中的记录插入到hive表中。命令成功但目标表未加载记录。 mergerdd.write.mode( “追加”)....

回答 3 投票 0

Pyspark udf对于没有参数的函数失败,但适用于没有参数的lambda

我正在尝试使用withColumn和不带参数的udf向我的Spark DataFrame添加一列。如果我使用lambda来封装我的原始函数,这似乎只有效。这是一个MWE:来自......

回答 1 投票 1

两个依赖于公共列的数据帧之间的交叉连接

crossJoin可以按如下方式完成:df1 = pd.DataFrame({'subgroup':['A','B','C','D']})df2 = pd.DataFrame({'dates':pd .date_range(date_today,date_today + timedelta(3),freq ='D')})sdf1 = spark ....

回答 1 投票 -1

在hadoop集群上运行PySpark-SQL时执行时间长?

我有一个天气数据的数据集,我试图查询它以获得每年的平均低点和平均高点。我提交工作并获得理想的结果没有问题,但它正在......

回答 1 投票 1

Spark是否受益于持久表中的`sortBy`?

Spark v2.4没有Hive Spark受益于bucketBy,它知道DataFrame具有正确的分区。那怎么样的sortBy? spark.range(100,numPartitions = 1).write.bucketBy(3,'id')。sortBy('...

回答 1 投票 1

当我尝试将字符串列转换为数字时,PySpark返回异常

我正在尝试将字符串列转换为数字,但我在PySpark中得到一个例外。我在下面提供了代码和错误消息。是否可以从csv导入特定列...

回答 1 投票 0

Spark SQL - 处理列名中的双引号

我有一个列名相似的HIVE表:column_“COLUMN_NAME”我的原始查询如下。 spark.sql(“SELECT from_unixtime(unix_timestamp(substr(time,1,23),'dd.MM.yyyy HH:mm:ss.SSS')...

回答 2 投票 1

如何解密sha2函数创建的十六进制字符串

有没有办法解密sha2函数创建的十六进制字符串。基本上我们基于数据帧的两列创建了一个十六进制字符串。

回答 1 投票 -1

无法在pyspark中将带有标题的表写入s3路径?

我有以下数据集:+ ------------------- + ------- + ------------ + | test_control_status | USER_ID | loyalty_type | + ------------------- + ------- + ------------ + | TEST ...

回答 1 投票 0

将4个数据帧合并为一个

我有4个数据帧,只有一行和一列,我想将它们组合成一个数据帧。在python中,我会使用zip函数执行此操作,但我需要一种方法在pyspark中执行此操作。 ...

回答 1 投票 0

如何根据PySpark数据帧的另一列中的值修改列? F.边缘情况

我想浏览一个pyspark数据框中的每一行,并根据另一列的内容更改列的值。我将其更改为的值也基于...的当前值

回答 1 投票 2

比较两个Dataframe列并显示df1中可用的结果而不是df2 [duplicate]

比较两个数据帧df1(最近数据)和df2(之前的数据),这些数据帧是从不同时间戳的相同表派生的,并根据不是......的列名(id)从df1中提取数据

回答 3 投票 1

Pyspark数据框OrderBy分区级别还是整体?

当我在pyspark数据帧上执行命令时,它是否对所有分区中的数据进行排序(即整个结果)?或者是分区级别的排序?如果以后,那么任何人都可以建议如何...

回答 1 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.