我必须验证我从 S3 读取到 Glue 的固定宽度文件。 我有每列的长度,我必须编写一个粘合作业来验证这些文件。
如何有效地检查每一行的长度以过滤掉不具有正确总长度的记录?
阅读此类文件的最佳方式是什么?
我尝试将它作为 csv 读取到动态框架中的一个 col0 中,并尝试使用 FILTER 过滤掉长度,但这给了我一本字典
bad_length_DF = dynamicFramerawtxt.filter(lambda x: len(x['col0']) != total_row_len)
如何从我的动态框架中删除长度错误的记录并创建一个 ERROR_Dynamic 框架?