如何在Pyspark中不截断地输出结构化流?

问题描述 投票:0回答:1

我正在尝试将结构化流结果输出到控制台:

.writeStream \
.outputMode("append") \
.format("console") \
.start()

输出表如下所示:

+--------------------+--------+--------+
|            column#1|column#2|column#3|
+--------------------+--------+--------+
|08/25/2022 00:00:...|abcde...|12345...|
+--------------------+--------+--------+

如何才能输出完整内容而不被截断?预期结果与使用

show(truncate=False)
:

+--------------------+--------+--------+
|            column#1|column#2|column#3|
+--------------------+--------+--------+
|08/25/2022  00:00:00|abcdefgh|12345678|
+--------------------+--------+--------+
apache-spark pyspark apache-spark-sql spark-streaming
1个回答
0
投票

按照控制台接收器文档中的指定,将选项

truncate
设置为
False
,例如:

query = (
    df
    .writeStream
    .outputMode("append")
    .format("console")
    .option("truncate", False)  # <-- this
    .start()
)

您还可以使用

options
方法同时设置多个选项:

query = (
    df
    .writeStream
    .outputMode("append")
    .format("console")
    .options(
        truncate=False,
        numRows=10,
    )
    .start()
)
© www.soinside.com 2019 - 2024. All rights reserved.