pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

如何在其他列定义的范围内生成随机数

我有一个包含两个整数列的数据框: 数据 = [("A",1, 5), ("B",3, 8), ("C",2, 7)] df = Spark.createDataFrame(data, ["类型","最小值", "最大值&...

回答 1 投票 0

如何根据主键从表中删除重复行?

我在 Dataframe 中加载了一个表,并且尝试将 groupBy 与 PK 一起使用。 df_remitInsert = Spark.sql("""从 trac_analytics.mainremitdata 中选择 *""") df_remitInsert_fil...

回答 1 投票 0

ModuleNotFoundError:运行 Delta Live Tables Python 笔记本时出现无名为“dlt”的模块错误

当尝试创建Python笔记本并按照设置databricks delta live表的各种示例进行操作时,如果您尝试运行y...

回答 3 投票 0

使用正则表达式清理邮政地址(spark regexp_extract)

我想剪掉一些地址的末尾: "1 rue de l'église" => "1 rue de l'église" "2 rue de la poste 公寓 B" => "2 rue de la poste" “3 4...

回答 1 投票 0


Pyspark - 将Json类型数据转换为表格形式

我在 pyspark 数据框中输入了如下所示的输入数据, 我想将其转换为表格形式,如下所示, 请帮助我,因为我对 pyspark 还很陌生。

回答 1 投票 0

PySpark 窗口函数:rangeBetween/rowsBetween 上的 orderBy 中的多个条件

是否可以创建一个窗口函数,它可以在 orderBy 中为 rangeBetween 或 rowsBetween 有多个条件。假设我有一个如下所示的数据框。 user_id 时间戳...

回答 2 投票 0

模糊逻辑来匹配数据框中的记录

我有 200 万个巨大的数据集,我想根据模糊逻辑匹配记录,我有我的原始数据框,例如 +--------+----------------+ |姓名|地址| +--------+---...

回答 1 投票 0

Pysaprk 使用 groupBy() 和 colRegex

我尝试将 groupBy() 与 colRegex 结合起来 所以我想自动将所有带有后缀“B_”的列和最后一列“Prio”与最大值聚合。 但无论如何我尝试它都不起作用。

回答 1 投票 0

使用 Spark 引擎的 AWS Glue 批量处理

这是我的场景。 我有一个源数据库,它是带有 Postgresql 引擎的 aurora 数据库。我有一个名为付款的表。该表由数百万条记录组成,因此在每个 d 结束时...

回答 1 投票 0

处理管道分隔文件中的换行符

我们有一个50GB的文本文件,用竖线分隔(|),如下 第 1 列|第 2 列|列 umn3|第4列|第5列 值1|值2|值 3|值4|值5 所以挑战在于将其读入 pyspark datafr...

回答 1 投票 0

在apache Spark中创建增量表时出现问题

我正在apache Spark中创建一个增量表, 这是我的代码 导入pyspark 从 pyspark.sql 导入 SparkSession 从达美进口* 从 pyspark.sql.types 导入 StructType、StructField、StringType、

回答 1 投票 0

如何选择其中包含特殊字符的scala数据框列?

我正在读取一个json文件,其中的键是特殊字符。例如 [{ "ABB/aws:1.0/CustomerId:2.0": [{ “id”:20, “namehash”:...

回答 1 投票 0

Synapse Spark池:有一个空闲节点池,用于在调用后执行代码

我们在 Synapse Spark 池中是否也有类似 Databricks 集群池的选项?其中我可以在笔记本调用后立即让空闲节点执行代码。 谢谢 拉维

回答 1 投票 0

相似表的连接时间差异很大

我有下面描述的两张表。我通常将此表与另一个较小的表连接(内部连接)。然而,根据检查执行时间,表 2 大约需要 9 分钟,而......

回答 1 投票 0

多个 parquet 文件具有 1-2 列的不同数据类型

我正在尝试使用 Pyspark 将不同的镶木地板文件读入一个数据帧,但它给了我错误,因为多个镶木地板文件中的某些列具有不同数据类型的列。喜欢

回答 3 投票 0

在增量实时表中执行Spark sql

我是 DLT 新手,正在尝试掌握它。我写了下面的代码。我有两个流表(temp1 和 temp2)。我正在从这些表中创建两个视图。然后我将加入那些 vi...

回答 1 投票 0

在Scala中,如何在迭代每个Map键时执行精确的比较匹配?

最终,我的目标是迭代包含数千条记录的 Map,并将每个匹配键与具有数百列的 Dataframe 中的列名称进行比较。 我有一个数据...

回答 1 投票 0

执行 Group By - 单次迭代与两次迭代

当我们在 Spark 中执行 groupBy 时,它是否会将整个分组数据带到单个分区/执行器中,或者无论数据存在于哪个分区,它都会执行初始分组并最终带来所有唯一的

回答 1 投票 0

在 pyspark 中获取最高和最低工资员工姓名

我在 pyspark 中有以下场景..有人可以帮忙吗? 我有以下输入: 输入数据 = [(100,"ABC",2000),(100,"XYZ",1000),(100,"CDE",750),(200,"GYT",1500...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.