pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

如何在 BigQuery PySpark 存储过程中运行标准 SQL 查询

我在 Bigquery 中运行以下 PySpark 存储过程; 从 pyspark.sql 导入 SparkSession Spark = SparkSession.builder.appName("work_with_sql").getOrCreate() df = Spark.sql( ''' 选择...

回答 2 投票 0

如何将 json 数组解析为多列 - Pyspark

我有一张像下面这样的桌子 职位编号 工作分数 工作状态 工作详细信息 工作_a 234.5 积极的 [{“xyz”:“”,“abc”:“”,“def”:“avg_xyz_value”,...

回答 1 投票 0

我使用pyspark创建了一个数据框,但无法查看创建的数据

我使用 pyspark 创建了一个数据框,但无法查看使用 .show() 创建的数据。 我遇到了 Py4JJavaError 我安装了findspark,在使用findspark.init()时出现以下错误 索引错误...

回答 1 投票 0

如何使用 pandas_udf 在 pyspark 中对分组/分区数据帧进行迭代

spark版本:3.2 我定义了 pandas_udf defcalculate_shap(迭代器:迭代器[pd.DataFrame]) -> 迭代器[pd.DataFrame]: 对于迭代器中的 X: 产量 pd.DataFrame( 解释一下...

回答 1 投票 0

在启用更改数据源的情况下在增量表上写入

我正在尝试使用合并语句更新具有属性 delta.enableChangeDataFeed=true 的 Delta 表,但出现异常 AnalysisException: Cannot write to table with delta。

回答 1 投票 0

在 pyspark 中处理镶木地板文件时保存时出现错误

我正在使用这样的 csv 文件进行处理 df = Spark.read.csv(路径 = '/mycsv.csv', header = True) 然后保存到数据库 %sql 如果 MY_DB 不存在则创建数据库 和 df.write.saveAsTable("我的...

回答 1 投票 0

对数据框中的嵌套 json 列应用转换

我有一个场景,S3 存储桶中会有多个 json 文件,我的 Pyspark 脚本会将其加载到数据帧中。 每个 json 将具有以下结构 - [ { “RECORDS_HEA...

回答 1 投票 0

spark 数据帧中两列中两个向量之间的欧几里德距离

我正在尝试获取 Spark 数据框中不同列中两个向量之间的欧氏距离。我需要在 Spark 上完成此操作。我花了很多时间尝试做到这一点,但无法想象......

回答 1 投票 0

如何在没有 UDF 的情况下计算 PySpark 数据帧中数组列中的尾随零数

我有一个数据框,其中有一列具有固定数量的整数的数组。 如何向 df 添加包含数组中尾随零数量的列? 我想避免使用...

回答 5 投票 0

如何按列表顺序对 PySpark 数据帧行进行排序?

我有一个包含多个列的 pySpark 数据框和一个包含其中一个列项目的列表。我想按给定列表的顺序对行进行排序。 可乐 列_B 列_c a1 b1 c1 a2 b2 c2 ...

回答 1 投票 0

如何在 Python 3.12 上使用 Spark Connect 和 pyspark?

我正在尝试使用 Spark Connect 在 Python 3.12 中使用 pyspark 在远程 Spark 集群上创建 Spark 会话: 入口_ep =“...” 访问令牌=“...” conn_string = f"sc://{

回答 1 投票 0

对每个数据帧列应用不同的转换

我有一个以下格式的 PySpark 数据框(records_002_df),并且将来会添加更多列 - +------------+----------------+-------------+ |记录类型| CLAIM_NUMBER|收到日期| +----...

回答 1 投票 0

PySpark:连接第二个数据帧中的 NULL 值应该匹配

我有一个要求,如果匹配的 df2 具有空值,则它应该匹配。默认情况下,Spark 不匹配带有 null 的行。 df1- ID 姓名 城市 电子邮件 1 约翰城 A [email protected] 2 雾慈...

回答 1 投票 0

数据框值替换

我试图用“yyyy-MM”+“-01”替换“yyyy-MM”,下面是我的代码,但我没有得到正确的结果。请注意,我正在研究数据块: 从 pyspark.sql.functions 导入 col、concat、lit、when #S...

回答 1 投票 0

使用正则表达式在 pyspark 中提取字符串中的模式

我有一个名为 rasm_4_Becv0_0_1234_rasm_3exm 的字符串 我想提取 pysaprk 中 Becv 之后的数字 0_0_1234。 谁能建议这个模式的正则表达式是什么......

回答 2 投票 0

ParseException:输入时没有可行的替代方案

我尝试在 Azure 数据块中运行以下查询。 查询=s"""WITH pre_file_user AS( 选择 ID, 类型ID, 当 dttm 为 null 或 dttm='' 时的情况...

回答 3 投票 0

雪花存储过程并行性

我有使用Javascript编写的雪花存储过程。从我的主 sp1 中,我正在读取表名称列表。使用迭代器将表名传递给 sp2 以进行数据加载过程。 创建专业...

回答 1 投票 0

使用“write”函数时 Pyspark 数据帧发生更改

这对我来说是一个真正的谜:当我尝试使用 jdbc 将 pyspark df 写入 Azure dataframe 时,我遇到了一个奇怪的情况。在运行“写入”功能时,我的表以某种方式发生了更改,但没有...

回答 2 投票 0

使用spark更新数据库表

为什么 Apache Spark 不提供更新数据库表的特定列的功能? 我尝试使用基本的 Spark 读写操作更新 PostgreSQL 表,但我无法...

回答 1 投票 0

在 Pyspark 中处理不同的日期格式

我正在尝试使用 pyspark 处理不同的日期数据格式。我尝试使用 to_timestamp 但没有得到预期的输出。任何帮助将不胜感激。 以下是我的输入和

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.