我有一个数据框(从hive表创建)。我已将数据帧转换为RDD,我正在逐行检索。在每一行上,我正在解析每个列值,如果某个特定列无效,则添加到具有列名和值的字典中。
然后我正在检查字典是否为空。如果非空,我想将该行添加到数据帧。再次在下一行继续相同的解析。
我用表模式创建了一个空数据帧。是否可以将行添加到空数据帧,以便最后我可以将数据帧保存到error_log_table。
否则,请建议您是否有更好的方法。我正在考虑在原始数据框中添加一个新列,如果该行无效,请将该行的列值修改为“T”。通过这个我可以过滤无效的行。我不确定如何单独更新该特定无效行的新列值。
感谢您的意见和建议。
谢谢!!!
您可以使用withColumn
函数
df.withColumn(new_column_name, function_which_will_return_required_value)