Pyspark 数据框奇怪的行为

问题描述 投票:0回答:1

我对 pyspark df 有疑问。 df 有大约 300k 行。在 databricks 中运行

display()
或在 vscode 中运行
show()
时没有问题 并会显示数据。

但是,一旦出现

df.select("col1")
,vscode 执行就会自动终止,不会出现错误消息或异常。代码和集群完全一样。

关于如何调试或者它是否是 vscode 中的已知原因和行数有什么想法吗?

dataframe apache-spark visual-studio-code pyspark databricks
1个回答
0
投票

最初的帖子: “首先声明 df = none 第二次分配 df = df1.join(df2) 第三次 df.show() 注意:df1 和 df2 不为空且有记录,show() 也可以” 答:问题出在步骤2上。 在 df2 上,我创建了带有 None/'N/A' 的空列(供以后使用) 这些列已存在于 df1 中并具有值。 即使在连接期间未选择这些列,pyspark 也无法很好地接受该函数/因此它将退出运行,但没有任何错误/异常。 不清楚为什么它在 databricks 上有效但在 vscode 上不起作用。 对于任何遇到此查询的人,请尝试删除不必要的列并仅在需要的地方添加。 谢谢大家的回答

© www.soinside.com 2019 - 2024. All rights reserved.