Pyspark 数据框奇怪的行为

Question

我对 pyspark df 有疑问。 df 有大约 300k 行。在 databricks 中运行

display()

或在 vscode 中运行

show()

时没有问题并会显示数据。

但是，一旦出现

df.select("col1")

，vscode 执行就会自动终止，不会出现错误消息或异常。代码和集群完全一样。

关于如何调试或者它是否是 vscode 中的已知原因和行数有什么想法吗？

Answer 1

最初的帖子： “首先声明 df = none 第二次分配 df = df1.join(df2) 第三次 df.show() 注意：df1 和 df2 不为空且有记录，show() 也可以” 答：问题出在步骤2上。在 df2 上，我创建了带有 None/'N/A' 的空列（供以后使用）这些列已存在于 df1 中并具有值。即使在连接期间未选择这些列，pyspark 也无法很好地接受该函数/因此它将退出运行，但没有任何错误/异常。不清楚为什么它在 databricks 上有效但在 vscode 上不起作用。对于任何遇到此查询的人，请尝试删除不必要的列并仅在需要的地方添加。谢谢大家的回答

Pyspark 数据框奇怪的行为

问题描述投票：0回答：1

1个回答

最新问题

Pyspark 数据框奇怪的行为

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1