pyspark-dataframes 相关问题


将 Pandas 函数转换为 Pyspark 函数

我有以下代码需要转换为 Pyspark。 我知道如何在 Pyspark 中创建数据帧 df_stack_exchange,但不知道如何创建等效的 allocate_boxes 函数...


我在安装 pyspark 时遇到错误,如何修复它?

我想安装并练习pyspark。但是在安装和进入 pyspark-shell 过程中,出现以下错误。 C:\Windows\System32>spark-shell 将默认日志级别设置为“WARN”。 至


Py4JJavaError:调用 z:org.apache.spark.api.python.PythonRDD.collectAndServe 时发生错误。在执行简单的 .map() 时

我是 pySpark 的新手,尝试了一个简单的 pySpark 代码,例如读取文件并使用 .map(),但在执行时出现 Py4JJavaError 从 pyspark 导入 SparkContext、SparkConf 配置 = SparkCo...


将 pyspark 数据帧转换为代码/语法

假设我在 Databricks 中有以下 pyspark 数据框: 一些其他列 价格_历史记录 测试1 [{“日期”:“2021-03-21T01:20:33Z”,“price_tag”:“N”,...


pyspark 检查点在本地计算机上失败

我刚刚开始在本地计算机上使用独立版本学习 pyspark。我无法让检查站工作。我把剧本归结为这个...... Spark = SparkSession.builder.appName("PyTest").master("


pyspark中的累积减法

我想在pyspark中实现累加减法。 我有这样的数据集 委员会 科伊特姆 1000 1110 100 1110 50 1110 30 1110 20 1110 2000年 1210 10 1210 200 1210 -100 1210 20 1210 我的德...


Pyspark - 按列表循环数据帧列

pyspark 新手。只是尝试简单地循环变量列表中存在的列。这是我尝试过的,但不起作用。 列列表 = ['colA','colB','colC'] 对于 df 中的 col: 如果 col 在


使用 pyspark pandas 的自定义聚合

我有一个 pyspark pandas 数据框。我想使用一些预定义函数执行自定义聚合,并为了简单起见使用 numpy.nanmean 我收到以下错误“aggs 必须是一个字典


如何在pyspark中关闭科学计数法?

作为一些聚合的结果,我想出了以下 Sparkdataframe: ----------+-----------------+-----------------+ |sale_user_id|gross_profit |total_sale_volume| +------------+-----...


PySpark 3.5 中的字符串到日期格式

日期 '2020/12/01' 20201227 '2020/12/03' 无效的 '2020-12-13' 在日期列中,有这些类型的数据,我需要更改yyyy-MM-dd格式 我们如何在 Pyspark 中实现这一目标。 基础...


col("name") 与直接在 pyspark pandas udf 函数列名称中使用名称之间有区别吗?

当将输入传递到pyspark中的pandas_udf时,您使用col(“name”),有时您直接使用“name”。有区别吗?另外,有人可以指出我确切的


无法在 Pyspark 中解析带有可选日期部分的日期

我有一个 Pyspark 数据框,其中的字符串日期可能是 yyyyMM (例如 200802)或 yyyyMMdd (例如 20080917)。我正在尝试将这些解析为日期。我目前正在考虑的功能是


Pyspark - 转换字符串数组以进行映射,然后映射到可能使用 pyspark 而不是 UDF 或其他性能密集型转换的列

我正在处理一些具有一些键值标头和有效负载的数据。我已成功将标头解析为以下数组: +------------------------------------------------ -----------+-----...


Pyspark - 将字符串转换为数组

我有一个数据框,它有字符串值,我有一个数组。 alg_mappings = { ('Full Cover', 40): [['base,permissed_usage'],['si_mv'],['suburb']]# 根据需要添加更多值 } 默认_va...


pyspark 中没有发生小数点后 2 舍入

我正在databricks中进行以下计算,并四舍五入到小数点后两位。 结果 = ( 圆形的( 合并( 当(col('col')!= 0,col('col')), 当(col('col')!...


从 Postgres 读取数据并写入 Google BigQuery 时架构不匹配

我创建了一个 pyspark 脚本来通过 Dataproc 将数据从 PG DB 迁移到 Google Bigquery,但是在 dataproc 上运行日志时遇到错误 引起的:java.lang.NullPointerExcepti...


是否可以广播字典并将其用作 pyspark 中的查找?

我正在azure databricks中运行以下代码。 使用 erp_bu 创建查找字典,erp_bu 是具有两列“erp_code”和“bu”的行对象列表 广播查找字典


如何读取包含 Excel 公式的 Excel 文件以通过 PySpark lib com.crealytics.spark.excel 计算值

我有一个 Excel 文件,例如: 它使用 Excel 公式计算每个值的列 我尝试使用以下方法读取该文件: input_MonthGroup_df = Spark.read.format("com.crealytics.spark.ex...


如何在 PySpark 中按条件聚合相邻行进行分组

我在 Spark 数据框中进行条件分组时遇到问题 下面是完整的例子 我有一个数据框,已按用户和时间排序 活动地点用户 0 观看


如何在 AWS EMR 上配置/安装 JDBC SQLServerDriver for Spark 3.5?

我正在开发一个 PySpark ETL 管道应用程序,以便最终部署在 AWS EMR 上。数据从 Microsoft SQL Server 数据库中提取或提取。当我在本地运行代码时,我使用本地 mas...


如何在 Step Function 中包含 AWS Glue 爬网程序

这是我的要求: 我在 AWS Glue 中有一个爬虫和一个 pyspark 作业。我必须使用步骤功能设置工作流程。 问题: 如何将 Crawler 添加为第一个状态。参数是什么...


有没有办法将图像的内容(存储在spark Dataframe中)与pyspark并行写入文件?

我有一个 Spark Dataframe,其中每一行都包含两个项目:文件名(带有扩展名,例如 .jpg)和文件的内容(以字节为单位)。 我想写一个过程...


在 PySpark 中执行不带 OrderBy 的窗口函数

我有一个数据框,其中数据的顺序已经正确。 现在我需要在数据帧上执行诸如超前/滞后之类的窗口函数,但是根据 Spark,orderBy 是强制性的,它不允许我喜欢 lea...


尝试在 pyspark 中构建代码时需要帮助,其中需要转置多个列,如下场景

我有一个以下格式的数据集。 样本数据集: 现在我需要转置(测试,Opt_marks,TotalMarks)以下格式的信息。 设计输出: 我在下面尝试过,但没有得到


PySpark 分区镶木地板需要很长时间才能加载,即使使用指定的模式

设置:我有一个包含约 1300 个分区 parquet 文件的文件夹(例如 C:\Project Data\Data-*.parquet),其中 * 是一个计数器,每个文件大小约为 8MB。所有文件都具有相同的架构。 我是茹...


© www.soinside.com 2019 - 2024. All rights reserved.