无法在google colab中使用pyspark从Kafka读取流数据

Question

我正在 google colab 上运行 pyspark。我已经设置了 Kafka 并在主题中添加了一个 csv 文件。如果我不使用结构化流从 kafka 读取数据，我就能够读取数据并打印它。

但是，当我尝试使用 Spark 结构化流读取相同的数据时，循环只是继续运行，而终端上没有打印任何内容。

这种情况下如何打印数据？任何帮助都感激不尽。谢谢！

Answer 1

在 Colab 或 Databricks 等环境中，打印到控制台效果不佳。你可以做的是使用

memory

水槽：

query = streaming_df.writeStream.format("memory").queryName("streaming_df").start()

然后，您可以使用以下方式查询内存中的输出：

spark.sql("SELECT * FROM streaming_df").show()