pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

[dataframe regexp_extract from from string like array

我的DataFrame如下所示:StudentID标记100 [“ 20”,“ 25.5”,“ 40.23”,“ 50”] 200 [“ 30”,“ 20”,“ 25”,“ 40”] 300 [“ 20“,” 25“,” 50“,” 35“] ...

回答 2 投票 0

将URI查询字符串转换为PySpark中的结构键值数组

我在PySpark中有一个DataFrame,它的URI查询字符串(StringType)列是这样的:+ -------------- + | cs_uri_query | + -------------- + | a = 1&b = 2&c = 3 | + -------------- + | d&e =&f = ...

回答 1 投票 0

如何对一列进行装箱并在一个单独的组中保留空值

我有一列具有连续变量的列,希望将其进行分箱以进行绘图。但是,此列也包含空值。我使用以下代码对其进行了装箱:def a(b):如果b <= 20:返回“

回答 1 投票 0

pyspark中的正则表达式可以检查字母和空格(也可以使用uni码)

我需要一个可验证下表的正则表达式。仅当字符串包含字母或带空格的字母时,它才应返回有效值。我尝试下面的代码,但它不允许有空间。 r =“ \ A \ ...

回答 1 投票 1

替代Pyspark数据框的GroupBy吗?

我有一个这样的数据集:timestamp vars 2 [1,2] 2 [1,2] 3 [1,2,3] 3 [1,2]并且我想要一个这样的数据帧。基本上,上面的每个值...

回答 1 投票 0

将带有几秒钟的列转换为人类可以理解的持续时间

我在pyspark中具有以下数据框:名称|秒| Enviar征求... | 1415 | Analizar mapa de ... | 1209 | |公开招标... | 591 | | Entregar服务... | 91049 |我...

回答 3 投票 3

将带有秒数据的列转换为日期pyspark

我在pyspark中具有以下数据框:名称|秒| Enviar征求... | 1415 | Analizar mapa de ... | 1209 | |公开招标... | 591 | | Entregar服务... | 91049 |我...

回答 3 投票 2

pyspark数据帧获得每一行的第二个最小值

[如果有任何想法,我想查询一下如何在pyspark的Dataframe行中获取第二个最低值。例如:输入数据帧:Col1 Col2 Col3 Col4 83 32 14 62 63 ...

回答 2 投票 2

pyspark数据帧连续获得第二个最大值

[如果有任何想法,我想查询一下如何在pyspark的Dataframe行中获取第二个最低值。例如:输入数据帧:Col1 Col2 Col3 Col4 83 32 14 62 63 ...

回答 2 投票 2

AWS粘合pyspark-将源表中的一行转换为目标中的多行

我有以下要求,如何使用pyspark爆炸功能实现此目的

回答 1 投票 1

如何从CSV文件中清除数据

[样本name.csv数据:姓名,年龄,类别,Diwakar 、、、 25 、、、 12 、、、、、、、、、、、、、、、、、、、、、、、、、、 ,35,,21,读取csv文件:names = spark.read.csv(“ name.csv”,header =“ ...

回答 1 投票 1

Spark结构化流中的多个聚合和不同的函数

我需要对来自Kafka的流数据进行一些汇总,并每M秒将结果的前10行输出到控制台。 input_df =(spark .readStream .format(“ kafka”)...

回答 1 投票 0

如何根据符合特定条件的列从数据框中选择最大值

我有一个数据框;如下所示:我正在尝试创建一个新的名为pt的pt,它将具有pt1-> pt5列中的最大值代码:mdf.withColumn(“ pt”,great(* list(filter(lambda x:.. 。

回答 1 投票 0

为什么最大的函数会抛出错误pyspark

我有一个数据框;其中具有名称为fib_1,fib_3,fib_5等的多个列。我正在尝试用值max(fib_1,fib_2,fib_3)df.withColumn(“ Fib”,great(list(...

回答 1 投票 0

使用MapType文字创建新列

我有以下pyspark.DataFrame + --- + -------- + -------- + -------------- + | SEX | _AGEG5YR | _IMPRACE | _LLCPWT | + --- + -------- + -------- + -------------- + | 2 | 11.0 | 1.0 | 79.4259469451 | | ...

回答 1 投票 0

[Py)Spark SQL中的窗口函数内的分组依据

为了理解这个问题,假设一群人在时间t1处在某个位置L。您有兴趣知道所有这些人在时间t0处的位置。我在这里有示例代码...

回答 1 投票 0

将SQL CSV火花转换为具有不同数据类型的JSON

[目前,我有一个这样的csv数据:id,key,value id_1,int_key,1 id_1,string_key,asd id_1,double_key,null id_2,double_key,2.0我想将这些属性按其id分组他们的...

回答 1 投票 -1

将字典文件作为pyspark数据框读取

我正在处理的问题是,我有一个(或多个)文件装满了字典,然后我试图将其放入数据框。输入文件可能如下所示:{“ A”:“ ...

回答 1 投票 0

FileNotFoundException-在delta_log中缺少checkpoint.parquet

我每天都有一些工作要做。不幸的是,其中一些有时会随机抛出异常:java.io.FileNotFoundException:_delta_log / 00000000000000000070.checkpoint ....

回答 1 投票 0

Pandas用户定义函数(UDF)-是否可以返回布尔值?

我正在尝试将函数编写为Pandas UDF,它将检查字符串数组的任何元素是否以特定值开头。我正在寻找的结果将是这样的:df.filter(...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.