Jupyter Notebook上未显示结构化流输出

Question

我有两个笔记本。第一个笔记本正在使用tweepy从Twitter阅读推文并将其写入套接字。其他笔记本正在使用Spark结构化流（Python）从该套接字读取推文，并将其结果写入控制台。不幸的是我没有在jupyter控制台上得到输出。代码在pycharm上工作正常。

spark = SparkSession \
    .builder \
    .appName("StructuredStreaming") \
    .getOrCreate()
spark.sparkContext.setLogLevel("ERROR")

# This is Spark Structured Streaming Code which is reading streams from twitter and showing them on console.
tweets = spark \
    .readStream \
    .format("socket") \
    .option("host", "127.0.0.1") \
    .option("port", 7000) \
    .load()

query = tweets \
    .writeStream \
    .option("truncate", "false") \
    .outputMode("append") \
    .format("console") \
    .start()

query.awaitTermination()

Answer 1

我不确定Jupyter Notebook是否可以实现。但是，您可以使用内存输出来达到类似的结果。在complete模式下这很简单，但可能需要对append进行一些更改。

对于`complete`模式

在complete输出模式下，查询应大致如下所示：

query = tweets \
    .writeStream \
    .outputMode("complete") \
    .format("memory") \
    .queryName("your_query_name") \
    .start()

注意，结尾没有query.awaitTermination()。现在，在另一个单元格中查询your_query_name临时表，并根据需要一直观察持续更新的结果：

from IPython.display import display, clear_output

while True:
    clear_output(wait=True)
    display(query.status)
    display(spark.sql('SELECT * FROM your_query_name').show())
    sleep(1)

对于`append`模式

如果要使用append输出模式，则必须使用水印。您也将无法使用聚合，因此您的代码可能需要做一些进一步的更改。

query = tweets \
    .withWatermark("timestampColumn", "3 minutes")
    .writeStream \
    .outputMode("append") \
    .format("memory") \
    .queryName("your_query_name") \
    .start()

用于显示的代码保持不变。您也可以类似的方式显示query.lastProgress以获取更多详细信息。

Jupyter Notebook上未显示结构化流输出

问题描述投票：1回答：1

1个回答

对于`complete`模式

对于`append`模式

灵感和参考

最新问题

Jupyter Notebook上未显示结构化流输出

问题描述 投票：1回答：1

1个回答

对于complete模式

对于append模式

灵感和参考

最新问题

问题描述投票：1回答：1

对于`complete`模式

对于`append`模式