pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

Photon 在执行此查询时内存不足。 Photon 未能为哈希表 var-len 键数据保留 349.4 MiB

我正在尝试使用 Delta Live Tables 运行下面的代码。 @dlt.view 定义数据(): 返回(spark.readStream .option("skipChangeCommits", "true") .format("增量...

回答 1 投票 0

将 PySpark ML 预测加入标识符数据

我正在使用 PySpark 及其 ML 库构建分类模型。在我的输入数据框中,我有一个标识符列(称为 erp_number),我想从构建模型中排除它(我不......

回答 1 投票 0

无法将 Spark 与 AWS 配置文件一起使用

我是 Spark 的新手。 现在,我在本地计算机中设置 AWS SSO。效果很好。 这是测试代码,使用 boto3 库上传数据 路径_obj = 路径(文件路径) 文件名 = 路径_obj...

回答 1 投票 0

按创建日期获取不同的行

我正在使用这样的数据框: 设备编号 |创建日期 |姓名 1001 | 1001 2018 年 1 月 1 日 |测试装置 1001 | 1001 2019 年 6 月 30 日 |设备 100...

回答 2 投票 0

返回数据帧中满足一个条件的行,同时修复另一列的值

我有一个如下所示的数据框: 类型 |年份|电影数 戏剧|2015| 705 浪漫|2015| 203 喜剧 |2015 |第586章 戏剧|2014| 605 浪漫|2014| 293 喜剧 |2014 |第786章 我...

回答 1 投票 0

如何从另一个数据帧检查布尔条件

我有三个 DF,第一个是基础 df,第二个是行为 df,第三个是规则 df 基础 df: +---+----+------+ |身份证号|姓名|薪资| +---+----+------+ | 1|一个| 100| | 2|乙| 200| | 3| C| 300| | ...

回答 1 投票 0

pyspark 列总和与转置

我有一个数据框,看起来像 - +---+---+---+---+ |编号| w1| w2| w3| +---+---+---+---+ | 1|100|150|200| | 2|200|400|500| | 3|500|600|150| +---+---+---+---+ 我想要的输出看起来像 - 满

回答 2 投票 0

无法创建 Spark 会话

当我创建 Spark 会话时,它抛出错误 无法创建 Spark 会话 使用pyspark,代码片段: ValueError Traceback(最近的调用...

回答 3 投票 0

日期列中的序列/爆炸问题 - Pyspark

我在使用 SEQUENCE 和 EXPLODE 处理 DataFrame 时遇到问题,该 dataframe 有 3 列: 员工ID 聘用日期 离开日期 我正在生成一个序列以获取每月之间的记录...

回答 1 投票 0

如何在所有工作节点上并行写入 Pyspark 数据帧列表?

我正在尝试运行一个基本的 AWS Glue 4.0 作业,它运行一个转换函数并返回一个数据帧列表: 导入系统 从 awsglue.utils 导入 getResolvedOptions 从 pyspark.context 导入

回答 1 投票 0

pyspark where 子句可以作用于不存在的列

我偶然注意到 pyspark 的奇怪行为。基本上,它可以对数据框中不存在的列执行 where 函数: 打印(火花.版本) df = Spark.read.format("csv&quo...

回答 1 投票 0

没有名为“pyspark”的模块 VSCODE Jupyter

基本上我安装了pyspark等,他在终端和jupyterlab中工作没有问题,但是在vscode的jupyter中我有这个错误,为什么? 我设置了hadoop、spark和java的path、home变量,b...

回答 1 投票 0

如何在 Spark 中解码 HTML 实体?

我正在将大量文本文件读入数据帧。最初它只有一列:值。文本文件使用 HTML 编码(即,它们有 < 而不是 <, etc.). I wa...

回答 2 投票 0

无法将“SparkXGBRegressorModel”记录到 Databricks 上的功能存储

我正在 Azure Databricks 上开发 MLOps 项目,在使用“SparkXGBRegressorModel”库训练模型后,我想将其记录到功能存储中。问题是使用 fs.log_...

回答 1 投票 0

用 (py)spark 本机逻辑替换 for 循环,以进行连续流程步骤跟踪

主要问题:如何将这种特定的基于 for 循环的逻辑转换为可扩展的 pyspark 逻辑? 我正在建模一个流程,通过一系列步骤跟踪生产项目的进度。我

回答 1 投票 0

使用 pyspark 读取 avro 文件时提供架构

我正在尝试使用 pyspark 读取 avro 文件。我想在读取文件时提供我自己的架构。下面是示例代码。 json_schema = """ { "type": "记录...

回答 1 投票 0

通过 DataBricks 将大量表下载到 ADLS 只是为了将其连接到较小的表,效率低下吗?

如果这个问题不明确,请告诉我,我可以提供更多详细信息。我的 DataBricks 环境附加到 Azure Synapse 实例。我们有大量的 ADLS 存储。第一部分...

回答 1 投票 0

Databricks 访问文件_元数据时出现问题

我正在尝试使用以下说明访问 _metadata 以获取文件修改时间: https://docs.databricks.com/en/ingestion/file-metadata-column.html 这是我的代码: df = Spark.read \ ...

回答 1 投票 0

将各个值映射到各个日期

输入: ID 第一次约会 最后日期 价值观 1 2023-12-10 2023-12-14 2,4,6,7,8 2 2024-01-12 2023-12-21 0,0,16,2,7,0,1,1,2,3 预期输出: ID 第一次日期和最后一次日期 价值 1 2023-12-10 2 1 2023-12-11 ...

回答 1 投票 0

在 Spark 结构化流中对 foreachBatch 操作应用定义的函数时出现 STREAMING_CONNECT_SERIALIZATION_ERROR

我正在使用 Spark 结构化流,但偶然发现了一个问题,但我看不到问题的根本原因和解决方案。 我定义了一个包含函数的 Reader 类

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.