pyspark:是否可以向空数据框或rdd添加行

问题描述 投票:1回答:1

我有一个数据框(从hive表创建)。我已将数据帧转换为RDD,我正在逐行检索。在每一行上,我正在解析每个列值,如果某个特定列无效,则添加到具有列名和值的字典中。

然后我正在检查字典是否为空。如果非空,我想将该行添加到数据帧。再次在下一行继续相同的解析。

我用表模式创建了一个空数据帧。是否可以将行添加到空数据帧,以便最后我可以将数据帧保存到error_log_table。

否则,请建议您是否有更好的方法。我正在考虑在原始数据框中添加一个新列,如果该行无效,请将该行的列值修改为“T”。通过这个我可以过滤无效的行。我不确定如何单独更新该特定无效行的新列值。

感谢您的意见和建议。

谢谢!!!

pyspark spark-dataframe
1个回答
0
投票

您可以使用withColumn函数

df.withColumn(new_column_name, function_which_will_return_required_value)
© www.soinside.com 2019 - 2024. All rights reserved.