我正在 google colab 上运行 pyspark。我已经设置了 Kafka 并在主题中添加了一个 csv 文件。如果我不使用结构化流从 kafka 读取数据,我就能够读取数据并打印它。
但是,当我尝试使用 Spark 结构化流读取相同的数据时,循环只是继续运行,而终端上没有打印任何内容。
这种情况下如何打印数据?任何帮助都感激不尽。谢谢!
在 Colab 或 Databricks 等环境中,打印到控制台效果不佳。你可以做的是使用
memory
水槽:
query = streaming_df.writeStream.format("memory").queryName("streaming_df").start()
然后,您可以使用以下方式查询内存中的输出:
spark.sql("SELECT * FROM streaming_df").show()