pyspark 相关问题

Spark Python API（PySpark）将apache-spark编程模型暴露给Python。

如何在Python函数内更新pyspark数据框

我有一个Python函数，它接收pyspark数据帧并检查它是否具有脚本中使用的其他函数所需的所有列。特别是，如果缺少“体重”列，我想...

python apache-spark pyspark user-defined-functions

回答 1 投票 0

如何使用apache Spark和python创建嵌套对象

我在使用 apache Spark 和 python 创建嵌套对象时遇到问题。我有以下数据框： GPS数据根 |--vehicle_id：字符串（可空 = true） |-- Organization_id: 字符串 (

apache-spark pyspark

回答 1 投票 0

Spark sql 创建并引用映射/查找表，如 Qlik 的 applymap 函数

我正在 Azure Synapse Spark sql 笔记本中工作，我有一个查找表，其中包含主表中 15 个代码字段的显示值。我想避免将查找表加入...

apache-spark pyspark apache-spark-sql azure-synapse

回答 1 投票 0

pyspark - 这两个完整外连接有什么区别？

完整示例在这里。我看到两种不同的输出，这两种方法在 pyspark 中的两个数据帧上进行完整的外部连接：用户1_df。 \ 加入（users2_df，users1_df.email == users2_df.email，'

python dataframe apache-spark join pyspark

回答 1 投票 0

如何在Python中使用多线程来实现？

我是Python新手，我想了解如何使用多线程执行此操作，因为数据太大，此操作需要花费大量时间。我在 Spark 中有大约 2500 多个列

python pyspark

回答 2 投票 0

在 pyspark 数据框中，我想根据窗口计算不同值

我有一个类似的数据框计划姓名用户身份美元 FWE QRS波 123 10 FWE QRS波 123 20 FWE QRS波 223 30 莱茵威 QRS波 223 40 在此输入图像描述我想计算基于唯一 user_id 的数量...

python dataframe pyspark

回答 1 投票 0

处理 pyspark 中的动态列数（csv 文件）

我收到下面的 CSV 文件（没有标题）- D,neel,32,1,pin1,state1,公头 D,sani,31,2,pin1,state1,pin2,state2,女 D,raja,33,3,pin1,state1,pin2,state2,pin3,state3,男我想创造...

python dataframe pyspark apache-spark-sql

回答 2 投票 0

Pyspark 如何避免顶部和嵌套结构中的组爆炸（代码优化）

问题我想根据请求数据计算一些统计数据，这些数据按顶层中的值和嵌套层中的值分组。 explode-join和3x groupby的主要问题是大数据的代码（100G...

apache-spark pyspark nested explode

回答 1 投票 0

执行器内的内核共享内存

假设我们有 5 台工作机器。每个工作节点配置为 16 核和 64 GB 内存。总共 80 个核心和 320 GB 内存。现在我们可以配置如下属性：选项 1：设置...

scala apache-spark pyspark

回答 1 投票 0

如何使用 PySpark 将另一列中包含的列名称替换为该列的值？

我有一个 PySpark 数据框，如下所示： ID 第 1 列列2 可乐科尔B id_1 ％可乐 < %colA int1 int3 Id_2 %colB t < %colB int2 int4 I want to replace strings starting with % with it's corresponding

python dataframe apache-spark pyspark apache-spark-sql

回答 1 投票 0

Pyspark，帮助更改此代码以减去不同的行

我想从前一个 value1 行中减去当前 value2 行，当 week > 1 时这是我的数据： ''' 从 pyspark.sql 将函数导入为 f 数据 = [ (1,1,1), (2,0,5), (3, ...

pyspark

回答 1 投票 0

查找列不匹配的行

我怎样才能找到两列不相等的行（就像熊猫一样）？数据= [（“约翰”，“多伊”），（无，“多伊”），（“约翰”，无），（无，无）] df = sp...

pyspark filter apache-spark-sql

回答 2 投票 0

EST 中的 Azure Databricks Notebook 中的当前时间戳

我需要 EST 中的当前时间戳，但 current_timestamp() 返回 PST。尝试了以下代码，但它不起作用并显示 EST 时间之前 6 小时： # 导入 current_timestamp

python datetime pyspark python-datetime

回答 1 投票 0

Pyspark 函数减去之前的行

在一定条件下将滞后/Windows 函数应用于整个数据帧时遇到问题。我想用当前行值（value2）减去前面的行值（value1），...

pyspark

回答 1 投票 0

无法从 Databricks 笔记本在 ADLS 中执行并行写入操作。 OSError：[Errno 107] 传输端点未连接

在数据帧上的 foreach() 中执行写入操作时遇到此错误。这段代码在 3 个多月内运行良好，但从上周开始出现故障。为了提供一些背景信息，我...

python pyspark databricks azure-databricks azure-data-lake-gen2

回答 1 投票 0

DataFrame.dropDuplicates 可以用来只保留 Spark 中的最新数据吗？

我在 Spark 中有一个按时间排序的 Dataframe，如下所示： id值时间 1 个 2024-01-01 00:00:00 2 2024-01-01 00:00:00 2 乙 2024-01-03 00:00:00 1 b ...

apache-spark pyspark apache-spark-sql

回答 1 投票 0

DataFrame.dropDuplicates 在 Spark 中表现如何？

我在 Spark 中有一个按时间排序的 Dataframe，如下所示： id值时间 1 个 2024-01-01 00:00:00 2 2024-01-01 00:00:00 2 乙 2024-01-03 00:00:00 1 b ...

apache-spark pyspark apache-spark-sql

回答 1 投票 0

spark.read.json 抛出 COLUMN_ALREADY_EXISTS，列名称因大写和类型而异

我正在尝试在 Spark 中读取一个巨大的非结构化 JSON 文件。我遇到了一种边缘情况，它似乎与仅在大写/小写和类型上有所不同的列相关。考虑脚本：来自 pys...

json apache-spark pyspark

回答 1 投票 0

带有分组数据的 Spark 结构化流 - 每组一个微批次

如果对流数据帧数据进行分组，是否可以在 Spark 结构化流中以单独的单个微批次处理每个组？像这样的东西： dfs = ... dfs.groupBy(...).writestrea...

apache-spark pyspark azure-databricks spark-structured-streaming

回答 1 投票 0

PYSPARK - 在多个列上加入 nullsafe

假设我们有两个数据帧，我们想要将它们与左反连接进行比较：数据1 = [ （1、11、20、无）、 (2, 12, 22, 31), ] 数据2 = [ （1、11、20、无）、 (2, 1...

python join pyspark apache-spark-sql databricks

回答 2 投票 0

pyspark 相关问题

最新问题