pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

查找列不匹配的行

我怎样才能找到两列不相等的行(就像熊猫一样)? 数据= [(“约翰”,“多伊”),(无,“多伊”),(“约翰”,无),(无,无)] df = sp...

回答 2 投票 0

EST 中的 Azure Databricks Notebook 中的当前时间戳

我需要 EST 中的当前时间戳,但 current_timestamp() 返回 PST。 尝试了以下代码,但它不起作用并显示 EST 时间之前 6 小时: # 导入 current_timestamp

回答 1 投票 0

Pyspark 函数减去之前的行

在一定条件下将滞后/Windows 函数应用于整个数据帧时遇到问题。 我想用当前行值(value2)减去前面的行值(value1),...

回答 1 投票 0

无法从 Databricks 笔记本在 ADLS 中执行并行写入操作。 OSError:[Errno 107] 传输端点未连接

在数据帧上的 foreach() 中执行写入操作时遇到此错误。这段代码在 3 个多月内运行良好,但从上周开始出现故障。 为了提供一些背景信息,我...

回答 1 投票 0

DataFrame.dropDuplicates 可以用来只保留 Spark 中的最新数据吗?

我在 Spark 中有一个按时间排序的 Dataframe,如下所示: id值时间 1 个 2024-01-01 00:00:00 2 2024-01-01 00:00:00 2 乙 2024-01-03 00:00:00 1 b ...

回答 1 投票 0

DataFrame.dropDuplicates 在 Spark 中表现如何?

我在 Spark 中有一个按时间排序的 Dataframe,如下所示: id值时间 1 个 2024-01-01 00:00:00 2 2024-01-01 00:00:00 2 乙 2024-01-03 00:00:00 1 b ...

回答 1 投票 0

spark.read.json 抛出 COLUMN_ALREADY_EXISTS,列名称因大写和类型而异

我正在尝试在 Spark 中读取一个巨大的非结构化 JSON 文件。我遇到了一种边缘情况,它似乎与仅在大写/小写和类型上有所不同的列相关。考虑脚本: 来自 pys...

回答 1 投票 0

带有分组数据的 Spark 结构化流 - 每组一个微批次

如果对流数据帧数据进行分组,是否可以在 Spark 结构化流中以单独的单个微批次处理每个组?像这样的东西: dfs = ... dfs.groupBy(...).writestrea...

回答 1 投票 0

PYSPARK - 在多个列上加入 nullsafe

假设我们有两个数据帧,我们想要将它们与左反连接进行比较: 数据1 = [ (1、11、20、无)、 (2, 12, 22, 31), ] 数据2 = [ (1、11、20、无)、 (2, 1...

回答 2 投票 0

Pyspark windows 函数不适用于整个数据帧

在一定条件下将滞后/Windows 函数应用于整个数据帧时遇到问题。 我想将前一行的值(value1)与当前行的值(value2)相乘,...

回答 1 投票 0

使用 pyspark 从具有键值对的 json 对象的嵌套数组中删除字段

使用pyspark从具有键值对(empval)的json对象的嵌套数组中删除id字段 输入 +----------+--------+---------------------------- ------------------------------------------------------...

回答 1 投票 0

如何从 PySpark 数据框中的嵌套 JSON 中提取列值?

我正在开发一个 PySpark 数据框(es_query),其中包含嵌套的 JSON 列(r_json、brd_json、vs_json)。我需要帮助提取列数据并将其存储在另一个数据框中(e_re...

回答 1 投票 0

无法让 PostgreSQL JDBC 在 Spark 环境中与 PySpark 配合使用

我想与远程 Linux 机器中的 postgresql 数据库进行交互。 Postgres 是 12,Linux 是 openjdk 1.8.0_402。为了获取 postgresql JDBC,我访问了 https://jdbc.postgresql.org/download/...

回答 1 投票 0

按 pyspark 数据框中的映射类型值过滤

Spark 数据框: Text_col Maptype_col 那么什么是{3:1, 5:1, 1:1} 什么是火花{3:2, 5:1} 我想过滤(删除)Maptype_col 中至少有一个条目的行...

回答 1 投票 0

从 pyspark 中的文本中提取地址

我对描述中的每个令牌都有一些描述和标签。标签指定令牌的类型。我想从描述中提取地址,即:对应于...的所有代币

回答 1 投票 0

使用 pyspark 数据框,嵌套数组的爆炸和存储在单独的行中花费了太多时间

我使用下面的代码片段来分解由嵌套 json 创建的数据帧中的列。查询花费太多时间才能完成。我可以得到一些关于如何改进的建议吗

回答 1 投票 0

如何在同一个glue任务中用处理结果替换数据源

我想处理A中的一些数据,并用处理后的结果替换A。 write() 操作完成后,我可以在任何“地方”做一些事情吗?或者有什么办法可以替代原来的d...

回答 1 投票 0

根据时间戳识别重叠记录并删除 pyspark 中的旧重叠

这是一个pyspark重叠时间段问题: 样本数据 数据 = [ (1、“2024-01-28T05:00:00Z”、“2024-01-28T06:00:00Z”、“1/24/24”), (1、“2024-01-28T05...

回答 1 投票 0

Pyspark - 创建一个 json 列,其键来自另一个 CSV 列

输入数据集如下所示 |编号 |领域 | f1 | f2 | f3 | f4 | | -------- | -------- | -------- | -------- | -------- | -------- | | 1 ...

回答 1 投票 0

莫名其妙的 PySpark SQL 数组索引错误:索引 1 超出长度 1 的范围

我看到一个莫名其妙的数组索引引用错误, 索引 1 超出长度 1 的范围 ...我无法解释,因为我没有看到在我的 AWS 上下文中引用任何相关数组...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.