pyspark中的行ID是什么?

问题描述 投票:0回答:1

在我们的传统DWH流程中,我们发现重复项并根据传统RDBMS中的rowid跟踪重复记录。

例如

select pkey_columns, max(rowdid) from table group by pkey_columns

将仅返回对应于最大记录的重复记录。即使我们识别出重复的记录,这也有助于识别/跟踪记录。

pySpark中是否有等效项?在dwh到pyspark dwh转换项目中如何处理?

apache-spark pyspark netezza
1个回答
0
投票

我建议您使用分析功能库,也许是一个

ROW_NUMBER()
OVER( PARTITION BY group pkey_columns 
    ORDER BY sort columns)
© www.soinside.com 2019 - 2024. All rights reserved.