无法在google colab中使用pyspark从Kafka读取流数据

问题描述 投票:0回答:1

我正在 google colab 上运行 pyspark。我已经设置了 Kafka 并在主题中添加了一个 csv 文件。如果我不使用结构化流从 kafka 读取数据,我就能够读取数据并打印它。

但是,当我尝试使用 Spark 结构化流读取相同的数据时,循环只是继续运行,而终端上没有打印任何内容。

这种情况下如何打印数据?任何帮助都感激不尽。谢谢!

pyspark apache-kafka google-colaboratory spark-structured-streaming
1个回答
0
投票

在 Colab 或 Databricks 等环境中,打印到控制台效果不佳。你可以做的是使用

memory
水槽:

query = streaming_df.writeStream.format("memory").queryName("streaming_df").start()

然后,您可以使用以下方式查询内存中的输出:

spark.sql("SELECT * FROM streaming_df").show()
© www.soinside.com 2019 - 2024. All rights reserved.