pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

用下一个递增数字填充空值| PySpark | Python

我在下面的数据框中有值。我想在列ID中添加下一个概念性ID,该ID在本质上必须是唯一的以及递增的。 + ---------------- + ---- + -------------------- + | ...

回答 1 投票 1

pyspark中的结构的扁平化数组

我有一个使用spark-xml包转换为dataframe的XML文件。数据帧具有以下结构:root |-结果:struct(nullable = true)| |-结果:struct(nullable = true)| ...

回答 1 投票 0

在Pyspark中使用contains和udf的问题:AttributeError:'NoneType'对象没有属性'lower'

我有2个数据框,df1和df2:df1:+ ------------------- + ---------- + ---- -------- + | df1.name | df1.state | df1.pincode | + ------------------- + ---------- + ------------ + | CYBEX INTERNATION | ...

回答 1 投票 0

如何在Azure Databricks PySpark中执行存储过程?

我能够在Azure Databricks中使用PySpark执行简单的SQL语句,但我想改为执行存储过程。以下是我尝试过的PySpark代码。 #initialize pyspark import findspark ...

回答 1 投票 1

根据条件创建列并保留先前的值

我具有以下按“ col1”排序的数据框。 + ---- + ---- + | col1 | col2 | + ---- + ---- + | a | x | | a | x | | a | y | | b | x | | b | z | | c | x | | c | y | | d | z | | d | ...

回答 1 投票 0

引发异常(“ Java网关进程在发送其端口号之前已退出”)

[运行PySpark代码时,出现以下错误:throw Exception(“ Java网关进程在发送其端口号之前已退出”] Exception:Java网关进程在发送其端口之前已退出...

回答 1 投票 -1

计算熊猫数据帧的余弦距离

我有一个形状为(70000 x 10)的熊猫数据框(例如df)。数据帧的头部如下所示:0_x 1_x 2_x ... 7_x 8_x 9_x用户ID ...

回答 1 投票 2

pyspark以拆分数组并获取键值

我有一个包含键值对字符串数组的数据框,我只想从键值中获取键,每行的键值对数是动态的,并且命名约定是不同的。示例...

回答 1 投票 0

Spark聚合,其中输出列为函数,行为列

我想在数据帧的不同列上计算一堆不同的agg函数。我知道我可以做这样的事情,但是输出都是一行。 df.agg(max(“ cola”),min(“ cola”),max(“ ...

回答 1 投票 1

pyspark-在将WHEN与LIKE操作或CONTAINS一起使用时获取空值

我正在使用胶水etl(pyspark)在“ status_purpose”列中写入条件以验证值“ ITEM”。如果找到该值,则将“ check_status_ind”列设置为“ Y”,否则设置为“ N”。 ...

回答 1 投票 0


PySpark TypeErrors

编写简单的CSV到Parquet转换。 CSV文件中有几个时间戳。因此,在尝试编写时出现类型错误。要解决此问题,我尝试将这一行实现为...

回答 1 投票 0

Pyspark将文件另存为实木复合地板并读取

我的PySpark脚本将创建的DataFrame保存到目录:df.write.save(full_path,format = file_format,mode = options ['mode'])以防我在同一运行中读取此文件,一切都很好:return。 ..

回答 1 投票 1


Pyspark:从另一个结构数组创建一个结构数组

[我正在使用Pyspark 2.4,并想从df_1创建df_2:[df_1]根|-请求:数组(可为空= false)| |-地址:struct(nullable = false)| | |-street:字符串(可为空...

回答 1 投票 0

为什么pyspark.sql下层函数不接受文字col名称和长度函数呢?

为什么在下一个示例中,下层函数不接受col名称作为文字和长度呢?导入pyspark.sql.functions为func df = spark.createDataFrame([['Tom',80)],[“ name”,“ height”])...

回答 1 投票 0

验证一个与另一个数据框中匹配的pyspark数据框中的行数据

我有2个Pyspark数据框df1,df2。 df1和df2都包含数百万条记录。 df1就像:+ ------------------- + -------- + -------- + |名称|州|密码| + ------------------- + --...

回答 1 投票 0

PySpark DataFrame何时使用/不使用Select

基于PySpark文档:DataFrame等效于Spark SQL中的关系表,可以在SQLContext中使用各种功能来创建。含义我可以使用Select来显示...的值]]

回答 1 投票 0

没有GroupBy的Pyspark SQL Pandas分组地图?

我有一个数据集,我想在多个ETL流程的不同阶段使用多个Pyspark SQL分组地图UDF进行映射,该大型ETL流程在AWS EMR中的临时集群上运行。分组地图API ...

回答 1 投票 4

Pyspark查询加入数据框查询需要太多时间

我有两个数据集,一个数据集的大小为11 GB,另一个为2 GB。以下是两个数据集:数据集1:其中的IP范围值与域相同。数据集2:仅具有IP地址需要...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.