pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

[dataframe regexp_extract from from string like array

我的DataFrame如下所示：StudentID标记100 [“ 20”，“ 25.5”，“ 40.23”，“ 50”] 200 [“ 30”，“ 20”，“ 25”，“ 40”] 300 [“ 20“，” 25“，” 50“，” 35“] ...

python apache-spark pyspark pyspark-sql pyspark-dataframes

回答 2 投票 0

将URI查询字符串转换为PySpark中的结构键值数组

我在PySpark中有一个DataFrame，它的URI查询字符串（StringType）列是这样的：+ -------------- + | cs_uri_query | + -------------- + | a = 1＆b = 2＆c = 3 | + -------------- + | d＆e =＆f = ...

dataframe apache-spark pyspark pyspark-sql url-parsing

回答 1 投票 0

如何对一列进行装箱并在一个单独的组中保留空值

我有一列具有连续变量的列，希望将其进行分箱以进行绘图。但是，此列也包含空值。我使用以下代码对其进行了装箱：def a（b）：如果b <= 20：返回“

python pyspark pyspark-sql pyspark-dataframes

回答 1 投票 0

pyspark中的正则表达式可以检查字母和空格（也可以使用uni码）

我需要一个可验证下表的正则表达式。仅当字符串包含字母或带空格的字母时，它才应返回有效值。我尝试下面的代码，但它不允许有空间。 r =“ \ A \ ...

python regex pyspark pyspark-sql pyspark-dataframes

回答 1 投票 1

替代Pyspark数据框的GroupBy吗？

我有一个这样的数据集：timestamp vars 2 [1,2] 2 [1,2] 3 [1,2,3] 3 [1,2]并且我想要一个这样的数据帧。基本上，上面的每个值...

pyspark group-by pyspark-sql

回答 1 投票 0

将带有几秒钟的列转换为人类可以理解的持续时间

我在pyspark中具有以下数据框：名称|秒| Enviar征求... | 1415 | Analizar mapa de ... | 1209 | |公开招标... | 591 | | Entregar服务... | 91049 |我...

python apache-spark pyspark pyspark-sql pyspark-dataframes

回答 3 投票 3

将带有秒数据的列转换为日期pyspark

我在pyspark中具有以下数据框：名称|秒| Enviar征求... | 1415 | Analizar mapa de ... | 1209 | |公开招标... | 591 | | Entregar服务... | 91049 |我...

python apache-spark pyspark pyspark-sql pyspark-dataframes

回答 3 投票 2

pyspark数据帧获得每一行的第二个最小值

[如果有任何想法，我想查询一下如何在pyspark的Dataframe行中获取第二个最低值。例如：输入数据帧：Col1 Col2 Col3 Col4 83 32 14 62 63 ...

python pyspark pyspark-sql pyspark-dataframes

回答 2 投票 2

pyspark数据帧连续获得第二个最大值

[如果有任何想法，我想查询一下如何在pyspark的Dataframe行中获取第二个最低值。例如：输入数据帧：Col1 Col2 Col3 Col4 83 32 14 62 63 ...

python pyspark pyspark-sql pyspark-dataframes

回答 2 投票 2

AWS粘合pyspark-将源表中的一行转换为目标中的多行

我有以下要求，如何使用pyspark爆炸功能实现此目的

pyspark pyspark-sql explode

回答 1 投票 1

如何从CSV文件中清除数据

[样本name.csv数据：姓名，年龄，类别，Diwakar 、、、 25 、、、 12 、、、、、、、、、、、、、、、、、、、、、、、、、、，35，，21，读取csv文件：names = spark.read.csv（“ name.csv”，header =“ ...

pyspark pyspark-sql pyspark-dataframes

回答 1 投票 1

Spark结构化流中的多个聚合和不同的函数

我需要对来自Kafka的流数据进行一些汇总，并每M秒将结果的前10行输出到控制台。 input_df =（spark .readStream .format（“ kafka”）...

pyspark apache-kafka apache-spark-sql pyspark-sql spark-structured-streaming

回答 1 投票 0

如何根据符合特定条件的列从数据框中选择最大值

我有一个数据框；如下所示：我正在尝试创建一个新的名为pt的pt，它将具有pt1-> pt5列中的最大值代码：mdf.withColumn（“ pt”，great（* list（filter（lambda x：.. 。

python pyspark multiple-columns pyspark-sql pyspark-dataframes

回答 1 投票 0

为什么最大的函数会抛出错误pyspark

我有一个数据框；其中具有名称为fib_1，fib_3，fib_5等的多个列。我正在尝试用值max（fib_1，fib_2，fib_3）df.withColumn（“ Fib”，great（list（...

pyspark pyspark-sql pyspark-dataframes

回答 1 投票 0

使用MapType文字创建新列

我有以下pyspark.DataFrame + --- + -------- + -------- + -------------- + | SEX | _AGEG5YR | _IMPRACE | _LLCPWT | + --- + -------- + -------- + -------------- + | 2 | 11.0 | 1.0 | 79.4259469451 | | ...

python apache-spark pyspark apache-spark-sql pyspark-sql

回答 1 投票 0

[Py）Spark SQL中的窗口函数内的分组依据

为了理解这个问题，假设一群人在时间t1处在某个位置L。您有兴趣知道所有这些人在时间t0处的位置。我在这里有示例代码...

apache-spark apache-spark-sql pyspark-sql

回答 1 投票 0

将SQL CSV火花转换为具有不同数据类型的JSON

[目前，我有一个这样的csv数据：id，key，value id_1，int_key，1 id_1，string_key，asd id_1，double_key，null id_2，double_key，2.0我想将这些属性按其id分组他们的...

apache-spark pyspark pyspark-sql

回答 1 投票 -1

将字典文件作为pyspark数据框读取

我正在处理的问题是，我有一个（或多个）文件装满了字典，然后我试图将其放入数据框。输入文件可能如下所示：{“ A”：“ ...