Glue PySpark - 固定宽度文件处理和验证

问题描述 投票:0回答:0

我必须验证我从 S3 读取到 Glue 的固定宽度文件。 我有每列的长度,我必须编写一个粘合作业来验证这些文件。

如何有效地检查每一行的长度以过滤掉不具有正确总长度的记录?

阅读此类文件的最佳方式是什么?

我尝试将它作为 csv 读取到动态框架中的一个 col0 中,并尝试使用 FILTER 过滤掉长度,但这给了我一本字典

bad_length_DF = dynamicFramerawtxt.filter(lambda x: len(x['col0']) != total_row_len)

如何从我的动态框架中删除长度错误的记录并创建一个 ERROR_Dynamic 框架?

dataframe pyspark aws-glue fixed-width
© www.soinside.com 2019 - 2024. All rights reserved.